科普向:一文解构大模型后训练,GRPO和它的继任者们的前世今生
机器之心报道编辑:冷猫GRPO 就像一个树节点,从这里开始开枝散叶。大语言模型的发展真是日新月异。从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。GRP
阅读全文机器之心报道编辑:冷猫GRPO 就像一个树节点,从这里开始开枝散叶。大语言模型的发展真是日新月异。从 DeepSeek 横空出世以来,其在大模型后训练的创新 GRPO 一跃成为强化学习黄金范式。GRP
阅读全文欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 & 腾讯带来的科研智能体方面的最新综述调研。当前基于大语言模型(LLM)的智能体构建通过推动自主科学研究推动 AI4S
阅读全文机器之心报道编辑:Panda记忆,你有我有,LLM 不一定有,但它们正在有。前些天,谷歌宣布 Gemini 具备了记忆能力。此前,它已经凭借长达 100 万 token 甚至更高的上下文长度,在「短期
阅读全文机器之心报道编辑:PandaLLM 似乎可以扮演任何角色。使用提示词,你可以让它变身经验丰富的老师、资深程序员、提示词优化专家、推理游戏侦探…… 但你是否想过:LLM 是否存在某种身份认同?近日,哥伦
阅读全文你有没有想过,AI 不仅能记住过去的一切,还能预见未知的未来?想象一下,让 AI 预测下周的股价、下个月的票房冠军、甚至下届世界杯的赢家……这听起来像科幻片,但如今,它已经成为现实中一场「极限挑战」。
阅读全文机器之心报道编辑:泽南、杨文他说:2027年AGI就来。23 岁被 OpenAI 开除,利用自己的「内部消息」打造了一支规模达 15 亿美元的基金,今年这支基金的表现还比华尔街高出 700%。如此跌宕
阅读全文机器之心报道机器之心编辑部不敢相信,希望是我的幻觉。AI 的普及引发了全球范围内关于其对劳动市场潜在影响的辩论。历史上,技术总会以不同的方式影响着人们的工作和生活,有的工作被取代,有的工作被增强。近几
阅读全文在《流浪地球 2》中图恒宇将 AI 永生数字生命变为可能,旨为将人类意识进行数字化备份并进行意识上传,以实现人类文明的完全数字化。如今随着扩散模型的兴起极大,涌现出大量基于音频驱动的数字人生成工作。具
阅读全文机器之心报道机器之心编辑部刚刚,《时代》周刊发布了 2025 年度 AI 领域最具影响力的 100 人名单。在这份名单中,我们看到了很多熟悉的学者和企业家。令人惊喜的是,今年出现了更多的华人面孔,并且
阅读全文机器之心报道机器之心编辑部引入「交错生成」功能,增强模型在世界知识和创意解释方面的能力。香蕉也能变礼服?Google 真的做到了!在最新一期谷歌开发者节目里,Google DeepMind 团队首次全
阅读全文本文作者来自上海交通大学和上海人工智能实验室,核心贡献者包括任麒冰、谢思韬、魏龙轩,指导老师为马利庄老师和邵婧老师,研究方向为安全可控大模型和智能体。在科幻电影中,我们常看到 AI 反叛人类的情节,但
阅读全文机器之心报道机器之心编辑部你可能不信,你投的 AAAI-2026 会议,应该是有史以来投稿量最多的一次。此前,取号人数就突破了 3 万,其中有不少 NeurIPS 转投的。如今官方数据也公开了:主技术
阅读全文机器之心报道编辑:冷猫大模型发展到现在,大家的设备上基本都有 AI 大模型工具了吧。随着多模态、交互、编码等各项能力的进化,AI 智能体的应用也越来越广泛。随之而来的就是 AI 智能体在相应应用场景获
阅读全文随着 AI 技术的飞速发展,从「快思考」到 「慢思考」,大语言模型(LLMs)在处理复杂推理任务上展现出惊人的能力。无论是我们熟知的思维链(CoT),还是更复杂的深度思考模式(Thinking),都让
阅读全文机器之心报道编辑:杜伟、+0刚刚,又一个人工智能国际顶会为大模型「上了枷锁」。ICLR 2025 已于今年 4 月落下了帷幕,最终接收了 11565 份投稿,录用率为 32.08%。就在今天,ICLR
阅读全文机器之心发布机器之心编辑部人工智能的浪潮正将我们推向一个由 RAG 和 AI Agent 定义的新时代。然而,要让这些智能体真正「智能」,而非仅仅是信息的搬运工,就必须攻克一个横亘在所有顶尖团队面前的
阅读全文机器之心报道编辑:Sia、杨文十年时间,中国将全面AI化。中国 AI 进入新的十年,从产业赋能升级至社会重构。2025 年 8 月,国务院印发《国务院关于深入实施“人工智能+”行动的意见》(以下简称《
阅读全文尽管 LLM 的能力与日俱增,但其在复杂任务上的表现仍受限于静态的内部知识。为从根本上解决这一限制,突破 AI 能力界限,业界研究者们提出了 Agentic Deep Research 系统,在该系统
阅读全文机器之心报道编辑:Panda这个先进的 AI 为何会突然对一个汉字「情有独钟」?DeepSeek 最新的 V3.1 模型上线不到一周,就因一个离奇的 Bug 引发社区热议:无论任务是写代码还是整理物理
阅读全文机器之心报道机器之心编辑部打造更聪明、更全能的社交。大家都说,在国外,社交应用是 Meta 的天下。但来自中国的一位小哥偏不信邪,他打造的一款 AI 原生即时通讯工具 Intent,广受好评。小哥名叫
阅读全文机器之心报道编辑:泽南这是老黄给机器人们送上的礼物。本周一,英伟达正式发布了旗下的新一代机器人专用芯片 Jetson Thor。与上一代 Jetson Orin 相比,新一代算力旨在大幅提升算力,以适
阅读全文近日,蚂蚁数科 AIoT 技术团队独立完成的论文《RollingEvidence: Autoregressive Video Evidence via Rolling Shutter Effect》被
阅读全文机器之心报道机器之心编辑部在软件领域,Vibe Coding 的核心在于:让开发者摆脱繁琐、低产出的代码编写,把体力活交给 AI,从而专注于更高维度的产品迭代与创意探索 —— 追求的是效率 + 创意的
阅读全文机器之心报道编辑:杨文为何画一条小丑鱼能给人《王者荣耀》上分的快感?见过赛博遛狗,你见过赛博养鱼吗?最近一款名叫 Draw A Fish 的 AI 小游戏,让全球百万网友疯狂上头。玩法很简单。只要在画
阅读全文在深度学习模型的推理与训练过程中,绝大部分计算都依赖于底层计算内核(Kernel)来执行。计算内核是运行在硬件加速器(如 GPU、NPU、TPU)上的 “小型高性能程序”,它负责完成矩阵乘法、卷积、归
阅读全文机器之心报道编辑:泽南最近,大模型技术的发展,让人们再次重视起 AI 专用芯片。对于计算任务负载来说,越是专用,效率就越高,谷歌的 TPU 就是其中的一个典型例子。它自 2015 年开始在谷歌数据中心
阅读全文选自quantamagazine作者:Ben Brubaker机器之心编译当数字逃离人类的想象力:BB (6) 的故事。现在给你一串数字,你能猜到一下个是多少吗:1、6、21、107,47176870
阅读全文传统强化学习(RL)在有标准答案的指令遵循任务(如数学、代码)上已趋成熟,但在开放式的创意写作领域却因缺乏客观对错而举步维艰。如何让 RL 突破「可验证奖励」的边界?蚂蚁技术研究院联合浙江大学开源全新
阅读全文机器之心报道编辑:Panda2025 年 8 月的世界人形机器人运动会可说是笑点与技术齐飞,荒诞与精彩共舞。我们看到了撞翻人类和机器人的机器人运动员以及足球赛场上机器人接连倒地摔跤,也看到了最前沿机器
阅读全文机器之心报道机器之心编辑部AI 加速科学和药物研发,已经不是什么新鲜事,但它的潜力远未被完全释放。就在刚刚过去的一天,OpenAI 宣布他们与生物科技初创公司 Retro Bio 合作,研发的新模型
阅读全文