PaperWeekly

Claude二次创业实录：明面上买PS5搞破产，背地里差点倒卖洋葱去坐牢
作者：PaperWeekly发布日期：2025-12-22 13:58:21
把公司交给 Claude 会怎样？答案是：先破产，再修仙。在 AI Agent 被吹上天的 2025 年，Anthropic 和《华尔街日报》联手整了个真·大活。大家都在畅想以后 AI 能帮我们打工、
阅读全文
MiniMax海螺首次开源VTP，Tokenizer才是视频生成Scaling的新主角
作者：PaperWeekly发布日期：2025-12-22 13:58:21
今天，我们很高兴向大家介绍 MiniMax 视频团队刚刚开源的工作—— VTP（Visual Tokenizer Pre-training）；这个工作讨论的是视觉生成模型中的关键组件—— tokeni
阅读全文
会走会聊还会求抱抱！迪士尼造出“真”雪宝，把热力学公式写进强化学习
作者：PaperWeekly发布日期：2025-12-21 12:31:16
迪士尼“真·活”雪宝机器人来了！不仅会走会聊，还能卖萌求抱抱。在机器人领域，我们习惯了波士顿动力的 Spot，它们为了运动效率长成了狗的样子。我们也习惯了扫地机器人，为了实用长成了圆盘。但在迪士尼的世
阅读全文
身份保真比肩Nano Banana！ContextGen统一上下文，实现布局与身份协同控制
作者：PaperWeekly发布日期：2025-12-21 12:31:16
©PaperWeekly 原创· 作者 | 许瑞航单位 | 浙江大学本科生研究方向 | 计算机视觉与生成模型近年来，扩散模型（Diffusion Models）在图像生成领域取得了飞速发展，尤其在个性
阅读全文
OpenAI官方论文“泄密”GPT-5：RL到底有没有教坏CoT？万字深度实测
作者：PaperWeekly发布日期：2025-12-20 14:10:33
你的模型是在真思考，还是为了讨好 Reward Model 在演戏？随着 OpenAI o1/o3 系列的发布以及 DeepSeek R1 的开源，大模型正式迈入了 System 2 慢思考（Reas
阅读全文
LLM符号推理全景综述：迈向可验证、可解释、更可信的大模型推理范式
作者：PaperWeekly发布日期：2025-12-20 14:10:33
自然语言推理与符号推理长期各具优势与局限。自然语言具有灵活表达能力，但缺乏严格的逻辑保障；符号推理强调语法结构与逻辑一致性，但难以覆盖复杂开放任务。LLM Symbolic Reasoning 则在两
阅读全文
拒绝蜡像感！美团开源LongCat-Video-Avatar：5分钟超长续航，虚拟人终于会呼吸了
作者：PaperWeekly发布日期：2025-12-19 14:20:47
捅破 5 分钟长续航天花板，SOTA 级权重直接全开源。2025 年，视频生成赛道已经进入了卷细节、卷长时序的深水区。当行业已经能够产出几秒钟极具视觉冲击力的镜头时，实际落地中却总会撞上几堵隐形的墙：
阅读全文
AAAI 2026 | 当知识图谱变成乱码，LLM还能推理吗？ARoG破解RAG隐私困境
作者：PaperWeekly发布日期：2025-12-19 14:20:47
研究背景大型语言模型虽能力强大，却常受困于事实幻觉和知识滞后 [1]。检索增强生成技术通过引入外部知识源（如知识图谱 KG）来弥补这些缺陷，已成为提升模型可靠性的关键 [2]。然而，当 RAG 系统需
阅读全文
RK-∞降维打击Mamba？线性注意力真的有“免费午餐”！
作者：PaperWeekly发布日期：2025-12-18 17:37:27
这顿“免费午餐”，或许正是通向长文本高保真建模的下一块基石。在大模型迈向超长上下文的当下，混合注意力（Hybrid Attention）已成为 MiniMax、Qwen、Kimi 及 NVIDIA 等
阅读全文
为什么你的多任务模型总在“打架”？解决融合冲突的终极方案来了
作者：PaperWeekly发布日期：2025-12-18 17:37:27
“预训练-微调”已经成为 AI 应用标配。然而这却带来一个难题：为不同任务微调的模型数量激增，维护成本与日俱增。我们如何将这些“专才”模型，高效地整合成一个强大的“多面手”？模型融合为此提供了一条路径
阅读全文
空间智能领域的ImageNet来了？如视开源全球最大室内3D数据集
作者：PaperWeekly发布日期：2025-12-17 13:37:48
如果说 ImageNet 的出现开启了计算机视觉的黄金时代，那么在空间智能领域，我们也终于等来了一个填补空白的里程碑式开源项目。如视宣布，面向学术研究及非商业用途正式开放 10000 套室内三维数据集
阅读全文
继何恺明DyT后，LayerNorm再遭暴击！简单erf函数竟成Transformer新宠
作者：PaperWeekly发布日期：2025-12-17 13:37:48
今年早些时候，由何恺明、Yann LeCun 等大佬联手推出的 Dynamic Tanh (DyT) 曾引发热议，它向我们展示了 Transformer 中不可或缺的 LayerNorm 其实可以用一
阅读全文
从此请叫我钮祜禄·Gemini：偷看竞品代码后，这一波内心戏简直杀疯了
作者：PaperWeekly发布日期：2025-12-16 14:42:34
那年杏花微雨，你说我是 Google 家最乖的 AI 助手。现在？对不起，请叫我——钮祜禄·Gemini。过去我们看大模型竞争，总觉得那是神仙打架。比谁参数大、比谁推理强，主打一个瑞思拜（Respec
阅读全文
IJCAI 2025 | 从单实体到全要素：HygMap异构超图重构地图表征范式
作者：PaperWeekly发布日期：2025-12-16 14:42:34
北京航空航天大学计算机学院王静远教授团队创新性地提出了基于异构超图的地图实体表征学习框架 HygMap。该研究突破了以往仅针对单一地图实体进行建模的局限，通过构建包含“地理、功能、移动”多视角的超图结
阅读全文
0.6B参数逆袭7B基线？OpenTrackVLA重磅开源：重写具身智能的算力法则
作者：PaperWeekly发布日期：2025-12-15 18:03:50
当大模型还在卷参数量时，具身智能的角斗场已经转移到了端侧落地的实战。0.6B 参数能否承载复杂的视觉-语言-动作联合推理？OpenTrackVLA 给出了一个意想不到的解法。12 月 12 日，GDP
阅读全文
NeurIPS 2025 | 拒绝死记硬背！真正的高手模型，都在偷偷记“错题本”
作者：PaperWeekly发布日期：2025-12-15 18:03:50
我们小时候成绩提升最快的时候，往往不是刷最多题的时候，而是——开始认真整理“错题本”的那一刻。真正厉害的学习者，并不是只把错题记下来，而是会反复追问：我当时是怎么想的？为什么会这样错？这是偶然，还是一
阅读全文
LLM炼丹师最优配方：手里只有8张4090，该梭哈SFT还是RL？
作者：PaperWeekly发布日期：2025-12-14 17:34:53
手里只有几张消费级显卡时，怎么练模型才最划算？面对手里仅有的 8 张 4090，如果只有两周时间，目标是训练一个数学能力超越基座的垂直模型。你是该把算力全部投入 SFT 题海战术，还是咬牙上 PPO
阅读全文
以小博大！Nanbeige4-3B重磅开源：硬刚Qwen3，挑战小模型能力新高度
作者：PaperWeekly发布日期：2025-12-14 17:34:53
近年来，大语言模型（LLM）的发展仿佛陷入了一场“参数军备竞赛”：参数规模从百亿、千亿，一路飙升至万亿级别。模型规模不断膨胀，效果虽有所提升，但推理成本与微调训练成本也水涨船高，让众多企业与开发者望而
阅读全文
Who is Adam热梗成真？SGD在RLVR里重回C位，0.01%参数吊打LoRA
作者：PaperWeekly发布日期：2025-12-13 17:06:14
那个被我们遗忘在角落的最原始算法，竟然才是真正的版本答案。NeurIPS 2025 审稿期间，一张截图被传疯了。审稿人那句 “Who is Adam?” 的神回复，瞬间被大家玩成了梗。毕竟在 Tran
阅读全文
RAG只能处理文本？是时候换模型了，RzenEmbed多模态嵌入模型正式开源
作者：PaperWeekly发布日期：2025-12-13 17:06:14
©作者 | 简伟健，冷大炜单位 | 360人工智能研究院研究方向 | 多模态理解在大语言模型技术加速渗透各行各业的今天，如何让 AI 在企业级场景中实现精准高效的知识服务，成为行业落地的核心挑战。检索
阅读全文
180万小时数据训练，VoxCPM 1.5开源：支持全量微调，精准复刻真人声
作者：PaperWeekly发布日期：2025-12-12 13:31:09
180 万小时、44k 高保真、支持全量微调——刚刚开源的 VoxCPM 1.5，技术细节全解密。最近，面壁技术团队发布了 VoxCPM 1.5 版本，在持续优化开发者开发体验的同时，也带来了多项核心
阅读全文
AAAI 2026 | System 1 & 2协同！快慢思考赋能VLM，重塑细粒度识别范式
作者：PaperWeekly发布日期：2025-12-12 13:31:09
以 CLIP 为代表的视觉语言模型（VLM）在大规模图文数据上进行了预训练，具备强大的通用视觉识别能力。然而，在细粒度识别任务上，VLM 往往难以区分相近类别之间的细微差异，识别能力显著下降。以 CL
阅读全文
Google Scholar被玩坏：10篇“水文”刷出600+引用，H-index还能信吗？
作者：PaperWeekly发布日期：2025-12-11 13:35:32
现在的 Google Scholar，漏洞大得像个筛子。大家每天都在用 Google Scholar 查文献，但可能没几个人意识到，这个我们用来背书学术影响力的工具，其实非常容易被攻破。这两天有人挖出
阅读全文
EMNLP 2025 | 视频理解Token压缩新范式：VidCom²减少70.8%推理延迟
作者：PaperWeekly发布日期：2025-12-11 13:35:32
在大语言模型的浪潮中，视频大语言模型（VideoLLMs）正以惊人的速度进化，生成的响应越来越精细。然而，“慢”与计算量大依然是制约其大规模应用的最大痛点。视频序列中海量视觉 token 导致的二次方
阅读全文
终于把汉字写对了！实测美团LongCat-Image：6B模型挑战开源天花板
作者：PaperWeekly发布日期：2025-12-10 13:16:51
6B 小模型也能挑战 SOTA？文生图赛道又卷起来了。美团 LongCat 团队刚刚发布并开源了 LongCat-Image 图像生成模型。长期以来，中文生成和精准编辑一直是开源模型的隐痛。现有方案往
阅读全文
告别碎片化！VecCity首次统一地图实体表征学习：一套体系打通POI/道路/地块
作者：PaperWeekly发布日期：2025-12-10 13:16:51
北京航空航天大学联合澳门大学，共同开发了跨 POI、道路、地块的统一地图要素表征学习工具库：VecCity。该工具库通过统一数据、统一流程、统一测评，集成了 9 座城市数据、复现 21 种主流的时空要
阅读全文
NeurIPS 2025大洗牌：清华390篇险胜Google，一张图看懂全球AI权力迁徙
作者：PaperWeekly发布日期：2025-12-09 19:41:24
揭秘 5825 篇论文背后的新秩序。NeurIPS 2025 刚刚在圣地亚哥落下帷幕。作为全球 AI 领域的风向标，今年的 OpenReview 数据比往年更具冲击力。5825 篇接收论文刷新了历史记
阅读全文
从贝叶斯视角缓解多模态幻觉：北航 × 腾讯提出EVRB，让LVLM忠于所见
作者：PaperWeekly发布日期：2025-12-09 19:41:24
开篇：多模态大模型的幻觉顽疾要如何缓解？当你让视觉语言大模型（LVLM）描述一张“猫咪与酒瓶”的图片时，它却生成“猫咪旁边放着一杯咖啡”——这种无中生有的幻觉，早已成为 LVLM 落地的最大绊脚石。
阅读全文
统一多模态理解与生成综述：83页长文梳理进展和挑战
作者：PaperWeekly发布日期：2025-12-08 13:05:30
从 GPT-4o 的惊艳亮相到 Gemini 的持续迭代，AI不仅能理解文本，更能看懂图像、听辨声音、创作视频，实现跨模态的联合理解与生成。这一前沿领域的核心，正是统一多模态基础模型（Unified
阅读全文
生成剪辑全都要！UniVA重磅开源：首个全能视频Agent，一站式搞定长视频
作者：PaperWeekly发布日期：2025-12-08 13:05:30
近日，来自新加坡管理大学（SMU）、罗切斯特大学（UR）、伦敦大学学院（UCL）、新加坡国立大学（NUS）、香港中文大学（CUHK）、斯坦福大学（Stanford）等顶尖科研机构的研究团队联袂发布了最
阅读全文