PaperWeekly

北京内推 | 腾讯微信事业群招聘大模型后训练方向算法实习生
作者：PaperWeekly发布日期：2025-10-30 13:55:40
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！腾讯微信事业群负责搭建和运营微信生态体系，为全球超过13亿用户提供便捷的社交生
阅读全文
EMNLP 2025苏州必打卡！蚂蚁集团邀你在云端Bar尽享美食，畅饮佳酿，共探技术创新
作者：PaperWeekly发布日期：2025-10-29 13:47:12
⬇️ 点击阅读全文，预约活动席位 🚀
阅读全文
Feed-Forward 3D综述重磅发布：一次读懂三维视觉的过去与未来
作者：PaperWeekly发布日期：2025-10-29 13:47:12
在 3D 视觉领域，如何从二维图像快速、精准地恢复三维世界，一直是计算机视觉与计算机图形学最核心的问题之一。从早期的Structure-from-Motion (SfM) 到Neural Radian
阅读全文
博士申请 | 英国谢菲尔德大学张策老师招收NLP/LLM方向博士/访问学生/实习生
作者：PaperWeekly发布日期：2025-10-29 13:47:12
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！University of Sheffield谢菲尔德大学（Universit
阅读全文
AI学会Debug自己？LSTM之父让智能体真正开始「自我进化」
作者：PaperWeekly发布日期：2025-10-28 14:03:53
过去，AI 只能“被训练”；现在，它开始“训练自己”。来自 LSTM 之父 Jürgen Schmidhuber 团队的最新研究，展示了一种能自我修改、自我修复、甚至自我优化的智能体——它真的开始学会
阅读全文
ICML 2025 | 神经网络何时学到世界模型？清华团队提出通用数学定义
作者：PaperWeekly发布日期：2025-10-28 14:03:53
©作者 | 章天任、陈冠宇、陈峰单位 | 清华大学 VIPLAB、千诀科技邮箱 | trzhang@mail.tsinghua.edu.cn相信 2025 年 AI 领域的大家都或多或少听说过“世界模
阅读全文
博士申请 | 阿联酋MBZUAI康健老师招收AI/ML方向全奖博士/实习生/访问学生
作者：PaperWeekly发布日期：2025-10-28 14:03:53
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！MBZUAI穆罕默德·本·扎耶德人工智能大学（Mohamed bin Zaye
阅读全文
RL记得更牢，SFT更健忘？普林斯顿陈丹琦团队改写后训练认知
作者：PaperWeekly发布日期：2025-10-27 18:33:33
同样的后训练，RL 让模型更稳，SFT 却更健忘。普林斯顿陈丹琦团队发现，遗忘的根源不在算法，而在数据分布与模型行为之间的错位。随着大模型规模的不断扩大，后训练（post-training）已成为影响
阅读全文
多人物也能“认得准”！阿里开源Identity-GRPO，刷新视频生成一致性上限
作者：PaperWeekly发布日期：2025-10-27 18:33:33
在视频生成的世界里，“认不清人”成了一个尴尬的通病。无论是两个人同框跳舞，还是多人合作演绎剧情，模型常常为了追求画面一致性而牺牲人物身份，一不留神就“串脸”“换人”。来自阿里云的研究团队决定正面破解这
阅读全文
北京/上海/杭州内推 | 蚂蚁集团保险大模型算法团队招聘大模型算法专家（P6-P7）
作者：PaperWeekly发布日期：2025-10-27 18:33:33
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！蚂蚁集团蚂蚁集团保险大模型算法团队，正聚焦用大模型技术重塑保险全链路服务 ——
阅读全文
思而不学则殆：通义实验室×北大联合提出RL-PLUS，突破大模型推理边界
作者：PaperWeekly发布日期：2025-10-26 20:05:17
“学而不思则罔，思而不学则殆。”仅依赖 GRPO 类探索，会导致大模型出现能力塌缩。RL-PLUS 创新性地融合监督学习（“学”）与强化学习（“思”），在 6 个复杂数学推理基准（如 AIME25 等
阅读全文
NeurIPS 2025 | 理解能否反过来教生成？VideoREPA让视频生成模型“懂物理”
作者：PaperWeekly发布日期：2025-10-26 20:05:17
我们用视频生成模型画出世界，但是真的理解世界吗？当前的视频生成模型看似能生成逼真场景，但实际上并不理解物理世界：物体会悬空不落、流体会违背重力、碰撞没有反馈。本文发现，一个拥有 20 亿参数的生成模型
阅读全文
博士申请 | 香港中文大学陈玥老师招收人工智能/智能电网方向全奖博士生
作者：PaperWeekly发布日期：2025-10-26 20:05:17
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！香港中文大学香港中文大学（The Chinese University of
阅读全文
GPT-5当上论文作者！AI首次以正式身份参与数学证明，攻克Erdős悬赏猜想
作者：PaperWeekly发布日期：2025-10-24 17:36:11
半个世纪悬而未解的数学谜题被攻克，而这次写下证明的，不只是人类。GPT-5 被正式列为论文作者之一——它写出了成千上万行可验证的数学证明代码，让一条悬赏 $1000 的 Erdős 猜想彻底落幕。有些
阅读全文
会看图≠会画图：SRUM用理解教会生成，探索统一多模态自我进化之路
作者：PaperWeekly发布日期：2025-10-24 17:36:11
TLDRSRUM 是一种简洁高效的后训练方法。其核心动机在于：当前统一多模态模型的理解能力普遍优于生成能力，对于许多对偶任务，生成端难以处理的问题，理解端却能轻松应对。基于此，SRUM 通过巧妙的指令
阅读全文
北京内推 | 腾讯混元大模型团队招聘多模态大模型DeepResearch方向算法实习生
作者：PaperWeekly发布日期：2025-10-24 17:36:11
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！腾讯混元大模型是腾讯公司的通用大模型技术团队，致力于开发业界先进的 AI 大模
阅读全文
不重构、不牺牲通用性：VLM-FO1，为任何VLM无损增强细粒度感知能力
作者：PaperWeekly发布日期：2025-10-23 13:48:21
通用视觉语言模型（VLM）能理解图像，却常常“看不清”细节。它能回答“图里有什么”，却指不准“具体在哪”。根源在于——生成式架构天生擅长输出语言，却不擅长生成连续坐标，这对模型而言是“非自然”的任务。
阅读全文
不用人类思维链！PARO打通SFT+RLVR，用模式先验重塑推理监督
作者：PaperWeekly发布日期：2025-10-23 13:48:21
PARO 证明，大模型真正需要学习的不是人类思维链，而是可复用的“推理模式”。当模式先验取代昂贵标注，SFT+RLVR 从人力密集走向自动生成，推理监督范式也因此被彻底改写。©PaperWeekly
阅读全文
北京内推 | Apple中国招聘多模态/大模型方向算法实习生
作者：PaperWeekly发布日期：2025-10-23 13:48:21
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！AppleApple is a place where extraordina
阅读全文
节省90%科研时间！Keplore自带GPU：一键跑通实验、复现论文、部署结果
作者：PaperWeekly发布日期：2025-10-22 12:34:33
研究生花一周跑通的实验，Keplore 十分钟就能完成。它不是“写点代码的助手”，而是一支自带 GPU、自动复现论文并能直接部署成果的科研外包团队。每次开始一个 AI 新项目时，成本都高得离谱？搞算
阅读全文
ICCV 2025 | AI能看懂电影剧情吗？VRBench开启首场“长视频推理大考”
作者：PaperWeekly发布日期：2025-10-22 12:34:33
本文第一作者为上海人工智能实验室研究员于家硕，研究方向为多模态视频理解。通信作者为中国科学院深圳先进技术研究院王亚立老师，上海人工智能实验室王毅老师，南京大学王利民老师。共同作者来自于上海创智学院等。
阅读全文
北京内推 | 阿里夸克基础大模型团队招聘强化学习方向研究型实习生
作者：PaperWeekly发布日期：2025-10-22 12:34:33
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！阿里巴巴阿里夸克大模型团队在智能科技浪潮中迅速崛起，我们拥有处于上升阶段的核心
阅读全文
建议所有博士都去学一遍，赢麻了！
作者：PaperWeekly发布日期：2025-10-21 12:34:26
新手搞科研，发不出顶会顶刊，不是因为你不够努力，而是因为你仍在沿用那套低效、耗时的传统科研模式！传统模式要求你“从0到1”搞出一个极具创新的idea，然后花大量时间去验证、实现。这种模式对于科研新手来
阅读全文
不改超参、不调token：用分位数替代均值，QAE让大模型强化学习更稳定
作者：PaperWeekly发布日期：2025-10-21 12:34:26
强化学习总是“要么坍塌要么炸”？QAE 用分位数取代均值，一步让训练稳回安全区。本文提出了一种简洁的强化学习基线改进方法——分位数优势估计（Quantile Advantage Estimation，
阅读全文
深圳内推 | 光明实验室生成式大模型团队招聘大模型/Agent方向研究员
作者：PaperWeekly发布日期：2025-10-21 12:34:26
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！光明实验室人工智能与数字经济广东省实验室（深圳）（以下简称“光明实验室”）是经
阅读全文
扩散语言模型也能强化学习？Meta田渊栋团队用“三明治梯度”打通RL闭环
作者：PaperWeekly发布日期：2025-10-20 13:50:41
把“好答案拉上去、坏答案压下去”：SPG 用上下证据界把扩散语言模型的策略梯度夹得又准又稳，一口气把四个经典推理基准的榜首收进囊中。一谈到 dLLM（离散扩散语言模型），大家首先想到的是并行或半自回归
阅读全文
NeurIPS 2025 | 仅用20B tokens蒸出SOTA，小模型的「低秩时刻」到了
作者：PaperWeekly发布日期：2025-10-20 13:50:41
最近我们高效蒸馏的工作 “Low-Rank Clone（LRC）”非常幸运被 NeurIPS 2025 接收为 Spotlight。TL;DR：我们通过训练一组 Low-Rank Projection
阅读全文
不靠RL、不用训练：哈佛「Power Sampling」让基座模型推理媲美GRPO
作者：PaperWeekly发布日期：2025-10-19 12:35:27
不靠强化学习、不做额外训练、不用校验器，也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布，就让基座模型的单发推理媲美 GRPO，还保持了多样性不坍缩。强化学习（R
阅读全文
不用微调！像打方向盘一样“操控”大模型思考：Steering正在改写推理范式
作者：PaperWeekly发布日期：2025-10-19 12:35:27
过去几年，Prompt Engineering 通过设计提示词引导大模型生成答案，而 Context Engineering 进一步强调优化输入上下文，使模型在推理过程中获得更多相关信息，从而提升理解
阅读全文
First Try Matters，不是Aha Moment：邴立东团队揭示推理模型靠首答，不靠反思
作者：PaperWeekly发布日期：2025-10-18 18:39:03
长思维链没那么神奇：推理模型中九成“反思”只是重复确认，真正决定结果的是第一个答案。邴立东团队系统量化发现，使用有更多反思的数据训练能让首答更准，但推理时截断反思几乎不掉分，却能显著节省 token。
阅读全文