DeepMind:智能体越多越乱,Agent天花板出现了?
机器之心编辑部在最近 AI 领域内,智能体(Agent)的研究和应用越来越多,原生多智能体工作的基础模型也已开始出现。作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式
阅读全文机器之心编辑部在最近 AI 领域内,智能体(Agent)的研究和应用越来越多,原生多智能体工作的基础模型也已开始出现。作为一个能够推理、规划和行动的系统,智能体正逐渐成为现实世界人工智能应用的常见范式
阅读全文编辑|杨文这个春节,MiniMax 杀疯了。2 月 20 日,港股马年首个交易日,MiniMax 收盘股价报涨 14.52%,市值一度冲破 3042 亿港元。这轮上涨并非只是资本市场的情绪宣泄。过去两
阅读全文「首个公开的面向 Terminal-Bench 环境交互类任务的数据规模化生产管线正式发布!」开源完整自动化数据构建算法构建 1655 个高可靠 CLI 任务环境镜像通过 291 条轨迹数据带来 20
阅读全文编辑|张倩硅谷 AI 人才市场,正在经历前所未有的复杂周期:无论是招人还是找工作,想要双向匹配都比以前困难。站在招聘方这边,最常见的体验是:你想要的人根本招不到,甚至连对方愿不愿意聊一聊都很难说。站在
阅读全文近年来,大模型文本检索(LLM-based Text Retrieval)技术发展迅猛,SOTA 的 LLM Embedding Model 参数量普遍在 7B 以上,相关性搜索性能提升的同时,部署成
阅读全文机器之心编辑部当大多数的 AI 厂商都在忙着打造更多 AI 工具的时候,一家以制作 AI 视频著称的公司居然开始制作「第二个你」了。近日,Pika 推出 AI Selves 产品,宣称可以生成「AI
阅读全文在衡量大语言模型(LLM)代码生成能力的竞赛中,一个日益严峻的问题正浮出水面:当模型在 HumanEval、MBPP 等经典基准上纷纷取得近乎饱和的成绩时,我们究竟是在评估其真实的泛化推理能力,还是在
阅读全文机器之心编辑部上周,谷歌发布了 Gemini 3 Deep Think 的一次重大更新,以应对当今科学、研究和工程领域的复杂挑战。而就在刚刚,谷歌正式推出支撑这些突破的升级版核心智能:Gemini 3
阅读全文机器之心编译如果把人生看作一个开放式的大型多人在线游戏(MMO),那么游戏服务器在刚刚完成一次重大更新的时刻,规则改变了。自 2022 年 ChatGPT 惊艳亮相以来,世界已经发生了深刻变化。在短短
阅读全文现有 VLA 模型的研究和基准测试多局限于家庭场景(如整理餐桌、折叠衣物),缺乏对专业科学场景(尤其是生物实验室)的适配。生物实验室具有实验流程结构化、操作精度要求高、多模态交互复杂(透明容器、数字界
阅读全文在很多大模型和 Agent 的训练里,最常见的一种做法就是只看结果:最后答案对了就给奖励,错了就当 0 分。在单轮问答里,这样「只看结果」还勉强能用;可一旦换成 Agent 这种要多轮对话、搜索、刷网
阅读全文编辑 | 泽南这已经是宇树机器人第三次亮相春晚,我们却感到了前所未有的震撼。今年的央视春节联欢晚会上,还是那家全球领先的宇树科技,把舞台当成了新技术的展示场。一群活力十足的人形机器人,上演了一出武术表
阅读全文想象一下,你让 AI 助手结合搜索工具探索一个复杂问题。它第一次探索时走错了方向,但第二次、第三次,它依然重复同样的错误探索路径。虽然你可能可以从最终得到的多次探索结果中挑选出一个勉强满意的答案,但是
阅读全文本文来自香港浸会大学和上海交通大学的可信机器学习和推理组,已被 ICLR 2026 接收。目前,RLVR(Reinforcement Learning with Verifiable Rewards)
阅读全文编辑|Sia米兰冬奥村今年的年味儿,溢出屏幕 在冬奥村这个汇聚全球运动员短暂停靠的「天下第一村」里,文化在碰撞,友谊在生长,各种小故事每天都在悄悄发生。 与往年相比,今年米兰冬奥村,多了一点特别的气
阅读全文机器之心编辑部大年初二,海外就开始发新模型了!这次是 Anthropic,率先发布了他们称之为「我们目前能力最强的 Sonnet 模型」Claude Sonnet 4.6。Claude 称,新模型对编
阅读全文GUI 智能体最近卷到什么程度了?Claude、OpenAI Agent 及各类开源模型你方唱罢我登场,但若真想让 AI 成为 「能在手机和网页上稳定干活的助手」,仍绕不开三大现实难题:「知识缺失」难
阅读全文尽管目前文生图模型(Text-to-Image Models)在生成高保真图像上表现卓越,但在应对空间感知、空间逻辑推理及多目标空间交互等贴合现实场景的复杂空间智能任务时往往力不从心。现有评估基准主要
阅读全文机器之心编辑部2026年春晚,舞台上最忙的,除了演员,就是机器人。央视春晚贺岁节目《我最难忘的今宵》这一届上台的机器人各有各的路子——有的走仿生路线,模仿起人来连神态都安排上了;有的直接拼运动能力,一
阅读全文本文第一作者林俊一,共同第一作者薛敦耀来自中国人民大学。通讯作者为中国人民大学许洪腾副教授与孟澄助理教授。其他作者还包括来自北京理工大学的虞俊副教授。在衡量 3D 点云、高分子构型等结构性数据之间的距
阅读全文不可学习样本(Unlearnable Examples)是一类用于数据保护的技术,其核心思想是在原始数据中注入人类难以察觉的微小扰动,使得未经授权的第三方在使用这些数据训练模型时,模型的泛化性能显著下
阅读全文编辑|sia春节是个好日子,AI Agent 圈迎来一则重磅人事变动。没想到吧,OpenClaw(前身 Clawdbot / Moltbot)从爆火到加入 OpenAI,仅仅过去了一个月的时间。就在刚
阅读全文在训练与开发单个通用大语言模型 (LLM) 之外,越来越多的研究开始关注多模型协同 (model collaboration):由不同群体、基于不同数据、以不同目的训练的多个大语言模型,通过多样化的协
阅读全文编辑|sia推理模型赛道,已经近乎肉搏。一边是 OpenAI o1 系列,主打「多想一步」的强化推理路线,用更长思考时间换更稳的结论。一边是 Anthropic 的 Claude Thinking,
阅读全文编辑|冷猫OpenClaw (原 Clawdbot)就像打开了一个潘多拉魔盒。通用任务智能体的门槛变得如此之低,不仅是让每个人有机会部署自己的智能助手,而更重要的是,智能体在整个互联网世界的参与程度越
阅读全文你见过 7B 模型在拼图推理上干翻 GPT-5 吗?不是靠堆参数,不是靠更大的数据,而是靠一件事:学会「什么时候该用工具」。大多数「工具增强」模型是这样的:遇到任务 X → 调用固定工具 Y → 祈祷
阅读全文编辑|泽南、杨文「2026 年或将成为人类历史上最忙碌、也最具决定性的一年。」xAI 联创 Jimmy Ba 在离职宣言中如是说。这话并非夸张。1 月初,Anthropic 推出 Agent 工具 C
阅读全文机器之心发布2 月 14 日,情人节。在一个以「亲吻」命名的问题上,人工智能与数学完成了一次「深度拥抱」。1694 年,牛顿和格雷戈里在剑桥提出一个问题:在一颗中心球周围,最多能紧贴放置多少颗相同的球
阅读全文Deep Research Agent 火了,但评测还停在「看起来很强 」。写得像论文,不等于真的做了研究。尤其当证据来自图表、截图、论文图、示意图时:模型到底是「看懂了」,还是 「编得像懂了」?俄亥
阅读全文机器之心编辑部我们每天都在见证「全球大模型第一股」智谱的历史新高。2026 年的春节档,注定将被写入中国 AI 的发展史。过去半个月,AI 社区被两颗「超新星」彻底点燃:一颗是字节跳动发布的 Seed
阅读全文