多智能体一定比单智能体要好?Google最新研究:并非如此!
一个模型不够用?那就加两个!多搞几个Agent(智能体)让它们自己开会讨论,效果肯定好。这种“智能体越多越好”的直觉,似乎成了当下的行业共识。甚至有论文曾宣称“More agents is all y
阅读全文一个模型不够用?那就加两个!多搞几个Agent(智能体)让它们自己开会讨论,效果肯定好。这种“智能体越多越好”的直觉,似乎成了当下的行业共识。甚至有论文曾宣称“More agents is all y
阅读全文随着基础模型的日益成熟,AI领域的研发重心正从“训练更强的模型”转移到“构建更强的系统”。在这个新阶段,适配(Adaptation) 成为了连接通用智能与垂直应用的关键纽带。这正是UIUC(伊利诺伊大
阅读全文在过去两年里,您可能在各种社交媒体、技术博客甚至开发者文档中,看到过无数关于“提示词工程(Prompt Engineering)”的秘籍。有人提出:“要对AI礼貌一点,说‘请’字效果更好”;也有人说:
阅读全文引言:全网热议背后的本体论修正如果在 AI 圈存在《黑客帝国》里墨菲斯给尼奥的“红药丸”时刻(红药丸隐喻面对现实),那么本周 Andrej Karpathy 的推文无疑就是那一颗。(以上微信翻译)作为
阅读全文最近,Google Research 发布了一篇 Blog《Titans + MIRAS:帮助人工智能拥有长期记忆》。它们允许 AI 模型在运行过程中更新其核心内存,从而更快地工作并处理海量上下文。这
阅读全文2025就要过去了。UC Berkeley、Stanford和IBM联手做了一件大事。他们调研了306份在一线“造 Agent”的从业者问卷,并深度访谈了20个已经成功落地并产生价值的一线企业案例(涵
阅读全文多智能体系统(Multi-Agent Systems, MAS)正变得越来越流行,例如Microsoft AutoGen、CrewAI。我们习惯了看着Agent像人类之间一样,通过你一言我一语的对话来
阅读全文这篇论文由北京航空航天大学、阿里巴巴、字节跳动、上海人工智能实验室等几十家顶尖机构联合撰写,全文长达303页,是对当前“代码大模型(Code LLMs)”领域最详尽的百科全书式指南。它不仅总结了学术界
阅读全文最近口述采样很火。如果您经常使用经过“对齐”训练(如RLHF)的LLM,您可能已经注意到一个现象:模型虽然变得听话、安全了,但也变得巨“无聊”。当您让它“讲一个关于咖啡的笑话”时,它可能总是反复讲那个
阅读全文最近几个月,大语言模型(LLM)领域出现了一个有趣的现象:虽然开源社区依然活跃,但闭源模型(如GPT 5系列、Claude 4.5、Gemini 3.0)似乎正在加速拉开差距。可能是西方马上圣诞节的缘
阅读全文在当前的情感计算研究中,存在一个显著的“断层”:我们拥有越来越精准的情感识别算法(输入端),也有了逼真的语音和面部生成技术(输出端),但连接这两端的“中间层”却鲜有人问津。机器能识别出你在愤怒,也能模
阅读全文这篇文章聚焦一项由Colton Casto、Anna Ivanova、Evelina Fedorenko和Nancy Kanwisher等研究者完成的工作,他们分别来自哈佛Kempner研究所、佐治亚
阅读全文基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K
阅读全文2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。基于此
阅读全文如果告诉你,仅仅改变提示词(Prompt)的结构,就能让大模型在复杂推理任务上的表现暴涨 60%,你相信吗?几天前,来自伊利诺伊大学香槟分校(UIUC)、华盛顿大学(UW)、普林斯顿和哈佛的研究团队发
阅读全文在过去五年,AI领域一直被一条“铁律”所支配,Scaling Law(扩展定律)。它如同计算领域的摩尔定律一般,简单、粗暴、却魔力无穷:投入更多的数据、更多的参数、更多的算力,模型的性能就会线性且可预
阅读全文随着Gemini 3.0、GPT-5.1的接连发布,AI 的能力边界再次被拓宽。一个令人兴奋的命题已然浮现:LLM 能否突破“解题者”的范畴,进化为能提出新颖科学假设的“科学家”,像爱因斯坦提出相对论
阅读全文Google昨天伴随Gemini3.0pro一同发布了他们的AI IDE产品Antigravity《与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?》。其震撼性的三
阅读全文就在几小时前,Gemini 3.0重磅发布。随着而来的还有其颠覆性的AI原生IDE产品——Antigravity,这不只是一个新工具那么简单。谷歌的这次发布,将三个核心开发工具,AI代理(Agent)
阅读全文当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。在过去很长一段时间里,这个词几乎等同于 RLHF(人类反馈强化学习)一种
阅读全文如何构建一个真正意义上的“自主代理”(Agent),而不是一个“带LLM的高级工作流”? 让钢铁侠中的“贾维斯”(J.A.R.V.I.S.)真正来到现实,不仅能对话,还能调动资源、控制机械、在复杂战局
阅读全文谷歌在第三天发布了《上下文工程:会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出,LLM模型本身是无状态的 (stateless)。如
阅读全文我们长期把LLM当成能独闯难关的“单兵”,在很多任务上,这确实有效。可一旦问题牵涉多步依赖、分支探索和中途验证,顺序思考 (Sequential Thinking)的推理链条就开始吃力,甚至崩溃,链条
阅读全文和我们第一次在高速上驾驶汽车一样,在这种高压时刻,我们的大脑展现出一种惊人的能力:我们不会为了“规划变道”这个复杂任务而“暂停”当前的“反应”任务。我们更不会闭上眼睛思考30秒,让车自动驾驶,当然现在
阅读全文2025年末,谷歌通过Kaggle平台,以前所未有的力度,连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享,更像是一场由谷歌顶级机器学习(ML)研究员和工程师亲自引领的、深入探索生成
阅读全文本文基于研究者的系统性综述,围绕“AI Scientist(AI科学家)”这一新的概念展开,核心线索是研究者的六阶段方法论与三阶段演进轨迹;您如果正搭建一个可验证、可协作、可扩展的研究自动化体系,这篇
阅读全文大型语言模型(LLMs)正迅速成为从金融到交通等各个专业领域不可或缺的辅助决策工具。但目前LLM的“通用智能”在面对高度专业化、高风险的任务时,往往显得力不从心。为了弥合这一差距,我们目前高度依赖领域
阅读全文如果你也在做 RAG 或智能体应用,大概经历过这些瞬间:文档切得太碎,答案失去上下文;切得太大,又召回不准;加了更多提示词,效果可能更不稳定。Weaviate 团队比我们更早碰到这些问题,这是一家总部
阅读全文在几天前,上海交大发布了一篇名为 《上下文工程2.0:上下文工程的上下文》(Context Engineering 2.0: The Context of Context Engineering) 的
阅读全文最近出现了一篇题为《远程劳动力指数:衡量AI对远程工作的自动化》(Remote Labor Index: Measuring AI Automation of Remote Work)的重磅研究。这篇
阅读全文