NLP PaperWeekly

CMU ｜LLM在数学推理能力的提升是否能迁移到其他领域？
作者：NLP PaperWeekly发布日期：2025-07-05 15:47:23
大家好，我是HxShine今天分享一篇来自卡耐基梅隆大学、宾夕法尼亚大学、华盛顿大学、M-A-P 和香港理工大学的研究，标题为：《Does Math Reasoning Improve Genera
阅读全文
DeepMind | 合成数据+RL，SWiRL让大模型拥有超强“工具脑”！
作者：NLP PaperWeekly发布日期：2025-07-04 15:55:30
大家好，我是HxShine今天分享一篇来自斯坦福大学和 Google DeepMind 的文章，标题为：《Synthetic Data Generation & Multi-Step RL for
阅读全文
ACL25 | SURVEYFORGE: 让AI写出结构严谨、引用精准的高质量综述
作者：NLP PaperWeekly发布日期：2025-06-30 23:21:42
大家好，我是HxShine今天分享一篇来自上海人工智能实验室、复旦大学和上海交通大学的研究论文，标题为《SURVEYFORGE: On the Outline Heuristics, Memory
阅读全文
ACL25 | DOLPHIN，Closed-loop Auto-research系统来帮你自动做科研了！
作者：NLP PaperWeekly发布日期：2025-06-10 17:35:13
大家好，我是HxShine今天分享一篇上海人工智能实验室的文章，标题为 DOLPHIN: Moving Towards Closed-loop Auto-research through Thin
阅读全文
成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力
作者：NLP PaperWeekly发布日期：2025-06-06 09:40:54
本文作者来自通义实验室和北京大学，第一作者是北京大学智能学院博士生孙浩，主要研究方向是RAG和Agent，在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文，师从张岩教授。该工作在阿
阅读全文
Harvard | RL如何放大pretraining过程中学到的行为？
作者：NLP PaperWeekly发布日期：2025-05-28 13:01:58
今天分享一篇来自 Harvard University 和 Kempner Institute 的文章，标题为 Echo Chamber: RL Post-training Amplifies Be
阅读全文
Microsoft | reward model需要用推理模型吗？
作者：NLP PaperWeekly发布日期：2025-05-23 10:31:45
今天分享一篇来自Microsoft公司、清华大学和北京大学的一篇文章，Title: Reward Reasoning Model: 奖励推理模型。这篇文章探索了一种名为“奖励推理模型（RRMs）”的
阅读全文
去年错过黄金的人，现在都在疯抢它！
作者：NLP PaperWeekly发布日期：2025-05-22 07:22:43
阅读全文
啥工作量？！60天就发了一篇NLP顶会
作者：NLP PaperWeekly发布日期：2025-05-21 09:10:00
搞科研，最怕的就是每天“眼睛读文献，脑袋想方案”。以为只要文献读的够多，准备就足够充分，就能找到好选题，写出好文章。实际上是在用“勤奋读文献”掩盖“不敢开始干”的焦虑。过来人都知道：科研成果是干出来的
阅读全文
DeepMid | RL还需要value function吗?
作者：NLP PaperWeekly发布日期：2025-05-19 11:44:52
今天分享一篇来自 DeepMind 的研究论文，标题为：Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM
阅读全文
Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案
作者：NLP PaperWeekly发布日期：2025-04-28 16:48:17
Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案大家好，我是HxShine今天分享一篇来自 NVIDIA 的文章（kaggle AIMO2冠军方案，冠军奖金高达26w美金，总奖池超
阅读全文
无需标注数据！TTRL用“少数服从多数”解锁大模型测试时强化学习新范式
作者：NLP PaperWeekly发布日期：2025-04-27 14:28:53
大家好，我是HxShine！今天分享一篇来自清华大学和上海人工智能实验室的文章，标题为 TTRL: Test-Time Reinforcement Learning（测试时强化学习）。这篇文章探讨了
阅读全文
震惊！强化学习训练后，大模型推理“天花板”反而降低了？清华研究揭示RLVR局限性
作者：NLP PaperWeekly发布日期：2025-04-24 15:23:18
大家好，我是HxShine今天分享一篇来自清华的文章，标题为：“Does Reinforcement Learning Really Incentivize Reasoning Capacity i
阅读全文
2025新风口！AI大模型又起飞了！
作者：NLP PaperWeekly发布日期：2025-04-16 09:24:28
2025开年，AI技术打得火热，正在改变程序员的职业命运：阿里云核心业务全部接入Agent体系；字节跳动30%后端岗位要求大模型开发能力；腾讯、京东、百度开放招聘技术岗，80%与AI相关……大模型正在
阅读全文
中国科大认知全重实验室发布Agent-R1训练框架，支持自主思考与工具调用！
作者：NLP PaperWeekly发布日期：2025-04-02 09:19:38
什么是 Agent-R1imgAgent-R1是由中科大认知智能全国重点实验室开发的智能体强化学习训练框架，致力于推进强化学习与智能体技术的融合发展。框架采用端到端强化学习方法，突破了依赖人工设计工
阅读全文
香港科技大学联合DeepSeek-AI推出CODEI/O：让AI学会“浓缩”推理模式
作者：NLP PaperWeekly发布日期：2025-04-01 07:28:57
大家好，我是HxShine今天分享一篇香港科技大学、DeepSeek-AI和上海交通大学联合发表的文章，标题为：CODEI/O: Condensing Reasoning Patterns via
阅读全文
人工标注太贵，合成数据不够好？看OS-Genesis如何破解数据困局
作者：NLP PaperWeekly发布日期：2025-03-31 10:55:08
从1920年的小说《R.U.R》到《钢铁侠》中的JARVIS，在过去的一个世纪里，人们一直梦想着构建能够自动化日常工作的Digital Agents（数字代理）。如今，随着视觉语言模型（VLMs）的
阅读全文