PaperWeekly

一致性轨迹强化学习登场：上海AI Lab让扩散语言模型实现全并行少步数推理
作者：PaperWeekly发布日期：2025-10-18 18:39:03
由复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文，提出了一套针对掩码扩散大语言模型（Masked Diffusion Large Language Model，MDLM）的解码策略
阅读全文
早鸟票倒计时2天！全国大模型智能生成大会：推理、多模态、智能体前沿集结
作者：PaperWeekly发布日期：2025-10-18 18:39:03
会议简介全国大模型智能生成大会（LMG）是中国中文信息学会（CIPS）大模型与生成专业委员会的旗舰学术会议。LMG是国内外大模型技术精英最期待的年度盛会，是极具行业实践的专业大模型交流平台，共同推进大
阅读全文
Meta花了420万美元、烧掉40万GPU·小时，只为验证一条Sigmoid曲线
作者：PaperWeekly发布日期：2025-10-17 17:13:39
Meta 花了 420 万美元、40 万 GPU·小时，只为验证一个大胆猜想：强化学习的结果，其实在训练一半时就能被算出来。在大模型时代，烧钱的研究已经见怪不怪；但当 Meta 的论文承认——这项实
阅读全文
从会画画到会思考：快手可灵提出T2I-CoReBench，最强模型也难逃推理瓶颈
作者：PaperWeekly发布日期：2025-10-17 17:13:39
文本生成图像已从“能画出来”进入“要想明白”的时代。快手可灵团队发布的 T2I-CoReBench，用 12 个维度、1080 个高难 Prompt 与 13,500+ 精细化问题，首次系统揭示 T2
阅读全文
NeurIPS 2025 | 上交大提出MM-UPT：多模态大模型的“无监督后训练”范式
作者：PaperWeekly发布日期：2025-10-17 17:13:39
自多模态大语言模型（MLLM）问世以来，它们在图像描述、视觉问答等任务中展现了惊人的能力。为了进一步提升模型性能，尤其是在复杂的多模态推理任务上，学术界和工业界的主流范式是监督微调（SFT）或强化学习
阅读全文
GPT越来越保守？斯坦福Manning团队提出Verbalized Sampling，让模型重新“多想一点”
作者：PaperWeekly发布日期：2025-10-16 21:20:33
当我们发现 GPT 的回答越来越相似、越来越像在背标准答案时，问题或许不在模型的能力，而在它被人类偏好训练“驯化”成了平均值——它学会了迎合最典型的答案，却忘了自己原本的多样性。过去两年，几乎所有经过
阅读全文
ACL 2025 | 北大提出动态焦点解码：让开放生成既“靠谱”又“好看”
作者：PaperWeekly发布日期：2025-10-16 21:20:33
近年来，大语言模型在开放式生成任务中大放异彩，但一个问题始终存在——生成的内容要么太死板，要么太离谱。固定的随机解码温度让模型陷入两难：温度高，输出多样但容易胡说八道；温度低，句句属实却千篇一律。如何
阅读全文
统一高效来了！清华发布RLinf-VLA：把VLA+RL的训练与部署“一网打尽”
作者：PaperWeekly发布日期：2025-10-16 21:20:33
前段时间清华大学推出了首个面向具身智能的大规模强化学习框架 RLinf，之前主要是从系统设计的角度出发，介绍 RLinf 极度灵活的系统设计思想。最近，团队加班加点，终于出炉了 RLinf 系统中关于
阅读全文
罗福莉担任通讯作者，小米 × 北大联合发布R3：让MoE强化学习从崩盘回归可控
作者：PaperWeekly发布日期：2025-10-15 13:11:41
“95 后天才少女”罗福莉以通讯作者身份参与小米联合发布的 R3（Rollout Routing Replay），首次从路由一致性层面对齐 MoE 强化学习的根因不稳，让训练曲线从“崩盘”回到可控区间
阅读全文
下周见！Wiley Advanced主编论坛@IROS 2025：从审稿人视角重塑论文表达
作者：PaperWeekly发布日期：2025-10-15 13:11:41
2025年全球机器人领域的顶级盛会——IEEE/RSJ智能机器人与系统国际会议（IROS 2025）将于 10 月19日-25日在杭州国际博览中心隆重召开。今年大会的主题是“人类-机器人前沿”，将重点
阅读全文
AAAI 2026联合会议征稿开启：大语言模型中的深度逻辑推理
作者：PaperWeekly发布日期：2025-10-15 13:11:41
AAAI 2026AAAI人工智能会议（AAAI Conference on Artificial Intelligence）由人工智能促进会（AAAI）主办，是人工智能领域中历史最悠久、涵盖内容最广
阅读全文
直到毕业我才懂：原来延期的博士，不止我一个
作者：PaperWeekly发布日期：2025-10-14 13:48:06
最近经常收到读者的留言 : 抱怨科研真是太难了，竞争压力大，导师不给指导、不开组会，一年见不到导师几次，对于论文初稿、毕业毫无建议! 其实他不是个例，大家也会有这样的烦恼：前沿顶会、期刊论文、综述文献
阅读全文
让论文自己讲！Paper2Video一键生成论文讲解视频，赶顶会DDL不慌了
作者：PaperWeekly发布日期：2025-10-14 13:48:06
你以为熬夜剪视频能保命，其实 Paper2Video 才是 DDL 真正的救命药。给它一篇论文、讲者图像和音频样本，几分钟就能生成一支“自己讲”的学术演示视频。想象一下：论文刚定稿，你的讲解视频也同步
阅读全文
8美元“驯服”DeepSeek-V3.2？Training-Free GRPO把RL成本打到地板
作者：PaperWeekly发布日期：2025-10-14 13:48:06
强化学习之父、图灵奖得主 Richard Sutton 认为：新一代的智能体将主要通过从经验中学习来获得超人类的能力，而不是仅靠人类数据的监督学习。传统 RL 训练在 32B 模型上动辄上万美元，现在
阅读全文
强化学习再迎范式切换：Sergey Levine团队把目标改写成“到达时间”
作者：PaperWeekly发布日期：2025-10-13 23:23:19
还在把“目标”当一帧观测硬塞进网络？来自 UC Berkeley 强化学习大牛 Sergey Levine 团队的新作，直接把范式翻过来——用“从任意状态到目标的最优到达时间”来定义目标。理论上“既足
阅读全文
如果RL可预测，我们还需要把训练跑满吗？中科大揭示参数更新的线性秘密
作者：PaperWeekly发布日期：2025-10-13 23:23:19
RL 训练真的像我们以为的那样“混沌”吗？中科大团队发现，大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。从复杂到可预测，这一发现让 RL 的漫长训练第一次显得“可计
阅读全文
Mamba-3惊现ICLR 2026投稿：三重升级打满“推理优先”范式
作者：PaperWeekly发布日期：2025-10-12 17:10:52
ICLR 2026 投稿惊现 Mamba-3：一场从数值分析、复值状态到硬件算力的系统重构，线性模型的“效率—能力—质量”三线齐升。在 ICLR 2026 的 OpenReview 上，一篇匿名投稿以
阅读全文
93%成功率！从“改提示”到“写剧情”：STaR-Attack用叙事推理攻破大模型防线
作者：PaperWeekly发布日期：2025-10-12 17:10:52
引言近两年，统一多模态大模型（UMMs）的发展让人惊叹。它们不只会理解图文，还能在对话中生成图像、视频，甚至跨模态推理。一个模型“多面手”，似乎无所不能。但能力越强，风险也随之而来。我们的研究首次发现
阅读全文
Attention is NOT All You Need：让“深度”重新流入时间，而非堆叠在参数之上
作者：PaperWeekly发布日期：2025-10-11 18:09:18
自 Attention 统治深度学习以来，我们获得了惊人的速度与可扩展性，却似乎失去了另一种更本质的能力——在时间中递归地思考、积累与演化。当速度压倒深度，我们真的理解了“智能”的含义吗？自 2018
阅读全文
NeurIPS 2025 Oral | 1个Token零成本，REG让Diffusion训练收敛快20倍！
作者：PaperWeekly发布日期：2025-10-11 18:09:18
只需引入一个 class token，REG 就让 Diffusion Transformer 的训练速度飙升至 63 倍，几乎“零成本”实现了更快收敛与更优生成——这项来自 NeurIPS 2025
阅读全文
DeepSeek苦练1T，清华只用5B？InfLLM-V2把稀疏注意力玩明白了
作者：PaperWeekly发布日期：2025-10-10 13:16:59
引言长序列高效处理已成为大模型应用的关键。传统稠密注意力在序列变长时计算开销极速增长，直接限制了产品可用性与成本可控性。为解决这一痛点，清华与 OpenBMB 提出 InfLLM-V2：一种零额外参数
阅读全文
EMNLP 2025 | 拨云见日：知识电路分析揭示大语言模型“知识遮蔽”幻觉之源
作者：PaperWeekly发布日期：2025-10-10 13:16:59
当我们以为大模型的“幻觉”只是记错事实时，PhantomCircuit 揭示了一个更隐蔽的真相——模型其实记得，但被主流知识遮蔽了。高频知识在神经电路中形成偏压，压制了那些低频却正确的事实，让模型“看
阅读全文
北京/上海内推 | 阶跃星辰招聘RL for AIGC方向算法研究员/实习生
作者：PaperWeekly发布日期：2025-10-10 13:16:59
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！阶跃星辰阶跃星辰是行业领先的通用大模型创业公司，坚定探索实现通用人工智能的道路
阅读全文
马毅团队重磅发布新书：从MCR²到白盒Transformer，重构深度学习的第一性原理
作者：PaperWeekly发布日期：2025-10-09 23:48:39
在神经网络无处不在的今天，我们似乎已经习惯了“深度学习就是堆结构、调参数”的经验主义时代。但在这一切的背后，一个根本问题始终没有被系统回答——深度网络究竟在学什么？为什么它们能从数据中生长出强大的表征
阅读全文
腾讯推出TRM：让大模型像人类一样批判性思考，从文本依赖到事实正确
作者：PaperWeekly发布日期：2025-10-09 23:48:39
最近，腾讯 WXG 推出了思维监督奖励模型Thinking-supervised Reward Model (TRM)，旨在提升大语言模型（LLM）在开放域问答任务中的事实正确性。TRM 通过引入忠实
阅读全文
稳住训练、跑出泛化：STAGE重写「自回归图像生成」的强化学习范式
作者：PaperWeekly发布日期：2025-10-09 23:48:39
在扩散模型一家独大的时代，自回归文生图的潜力正被重新挖掘——它拥有更强的离散表征能力，却也更容易在强化学习阶段“失稳”。STAGE 在自回归（Autoregressive, AR）文生图模型上首次实现
阅读全文
无RLHF，7M小模型反超DeepSeek-R1：三星团队用递归思考取代规模堆叠
作者：PaperWeekly发布日期：2025-10-08 23:34:27
在所有人都以为智能等同于规模的时代，三星研究团队用一个仅 7M 参数的微型神经网络，递归式地“先提答案、再反思改进”，在复杂推理基准 ARC-AGI 上击败了包括 DeepSeek-R1、Gemini
阅读全文
告别梯度！Evolution Strategies全参微调挑战PPO/GRPO：更稳、更省、更好复现
作者：PaperWeekly发布日期：2025-10-07 19:03:35
过去两年里，“后训练=RL”的观念几乎成了行业默认。很多团队把 PPO、GRPO 写进了自己的 Pipeline，并习惯性地在动作空间里做探索与优化。这篇论文则把镜头拉回到参数空间：作者将 Evolu
阅读全文
NeurIPS 2025 | 北邮用“图+文”把人物检索拉满：自动合成数据 × 细粒度特征对齐
作者：PaperWeekly发布日期：2025-10-07 19:03:35
在智能安防、失踪人口查找、公共场所人员溯源等实际场景中，我们往往需要结合「目标人物参考照片」和「文字描述」定位具体个体——比如用失踪者过往生活照，搭配“近期穿灰色连帽卫衣、戴黑色边框眼镜”的实时描述展
阅读全文
自进化Agent的第三种可能：隐式记忆，不动模型参数，胜过GRPO
作者：PaperWeekly发布日期：2025-10-06 20:04:18
当前，由大型语言模型（LLM）驱动的智能体（Agent）正引领着人工智能领域的变革。然而，智能体的记忆机制——无论是强制调整模型参数的“参数化记忆（Parametric Memory）”，还是将经验外
阅读全文