让CoT随环境「演化」,AgileThinker实现“边想边做”|清华最新
和我们第一次在高速上驾驶汽车一样,在这种高压时刻,我们的大脑展现出一种惊人的能力:我们不会为了“规划变道”这个复杂任务而“暂停”当前的“反应”任务。我们更不会闭上眼睛思考30秒,让车自动驾驶,当然现在
阅读全文和我们第一次在高速上驾驶汽车一样,在这种高压时刻,我们的大脑展现出一种惊人的能力:我们不会为了“规划变道”这个复杂任务而“暂停”当前的“反应”任务。我们更不会闭上眼睛思考30秒,让车自动驾驶,当然现在
阅读全文2025年末,谷歌通过Kaggle平台,以前所未有的力度,连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享,更像是一场由谷歌顶级机器学习(ML)研究员和工程师亲自引领的、深入探索生成
阅读全文本文基于研究者的系统性综述,围绕“AI Scientist(AI科学家)”这一新的概念展开,核心线索是研究者的六阶段方法论与三阶段演进轨迹;您如果正搭建一个可验证、可协作、可扩展的研究自动化体系,这篇
阅读全文大型语言模型(LLMs)正迅速成为从金融到交通等各个专业领域不可或缺的辅助决策工具。但目前LLM的“通用智能”在面对高度专业化、高风险的任务时,往往显得力不从心。为了弥合这一差距,我们目前高度依赖领域
阅读全文如果你也在做 RAG 或智能体应用,大概经历过这些瞬间:文档切得太碎,答案失去上下文;切得太大,又召回不准;加了更多提示词,效果可能更不稳定。Weaviate 团队比我们更早碰到这些问题,这是一家总部
阅读全文在几天前,上海交大发布了一篇名为 《上下文工程2.0:上下文工程的上下文》(Context Engineering 2.0: The Context of Context Engineering) 的
阅读全文最近出现了一篇题为《远程劳动力指数:衡量AI对远程工作的自动化》(Remote Labor Index: Measuring AI Automation of Remote Work)的重磅研究。这篇
阅读全文读者,您好!今天想跟您聊一个硬核又极具启发性的项目——HGM(Huxley-Gödel Machine)。我刚刚一起花了几个小时,从环境配置的坑,一路“打怪升级”到让它最终跑完,相信您可能已经从别的公
阅读全文编码智能体(Coding Agents),这些智能体能够处理复杂的编程任务,与开发环境交互,执行测试,甚至进行自我调试。这一飞跃催生了一种范式转变,带来了一种引人思考的新开发方法论,尽管“Vibe C
阅读全文DeepSeek-OCR这段时间非常火,但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”,而不是“跨设备跨后端”的通吃实现,因此无法直接在苹果设备上运行,对
阅读全文从“AI没什么用”到“AI三年内将终结人类工作”,这片巨大的认知鸿沟,就是我们身处的2025年。在这片喧嚣和迷雾之中,我们迫切需要一个清晰的导航图。而Jason Wei正是提供这份地图的最佳人选之一。
阅读全文大型语言模型(LLM)本身很强大,但知识是静态的,有时会“胡说八道”。为了解决这个问题,我们可以让它去外部知识库(比如维基百科、搜索引擎)里“检索”信息,这就是所谓的“检索增强生成”(RAG)。但这还
阅读全文您可能已经听过“Brain Rot(脑腐烂)”这个词,它在2024年被牛津大学(Oxford)评为年度热词,本意描述的是人类长期沉浸浅层信息流带来的注意力、记忆与社交认知的耗损。Texas A&M U
阅读全文DeepSeek昨天开源了它们的多模态模型DeepSeek-OCR,主打用视觉压缩技术重新定义文本处理,长上下文难题迎来新解法!这个家伙厉害在能覆盖100多种语言,除了整页文字,还能对图表、化学式、几
阅读全文每隔一阵子,总有人宣告“RAG已死”:上下文越来越长、端到端多模态模型越来越强,好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景,你会发现死掉的只是“只切文本的旧RAG”。当图、表、公式与
阅读全文通用人工智能AGI可能是人类历史上最重要的技术,但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样,人们对“什么才算 AGI”的门槛就跟着改,
阅读全文中科院的这篇工作解决了“深度搜索智能体”(deep search agents),两个实打实的工程痛点,一个是问题本身不够难导致模型不必真正思考,另一个是上下文被工具长文本迅速挤爆导致过程提前夭折,研
阅读全文上周写了两篇关于GEPA的文章《Agent多步误差咋破?看下GEPA,反思自进化+帕累托前沿,超过DSPy的MIPROv2》《别被提示词优化困住!用DSPy.GEPA把Prompt做成可演进的工程(万
阅读全文PyMC Labs 和个人护理领域的龙头企业高露洁-棕榄一起发了篇论文,核心想法很简单:传统消费者调研又贵又慢,还容易被面板偏差、迎合式作答这些老问题拖后腿。两家就想找一条更省钱省时、还能和现有流程配
阅读全文Meta提出早期经验(Early Experience)让代理在无奖励下从自身经验中学习:在专家状态上采样替代动作、执行并收集未来状态,将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可
阅读全文编者按:调模型不如“管上下文”。这篇文章基于 ACE(Agentic Context Engineering),把系统提示、运行记忆和证据做成可演化的 playbook,用“生成—反思—策展”三角色加
阅读全文写给正在落地 AI 产品的工程师。一些代码直接可改造复用;另一些,是我踩坑后的经验之谈。为什么是 DSPy.GEPA,而不是“再手搓一次提示”DSPy是一个2024年5月修猫曾反复推荐给大家的一个AI
阅读全文您修过Bug吗?在Vibe coding的时代之前,当程序员遇到自己写的 Bug 时,通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时,情况变得复杂得多,我们不清楚 AI 的“思考
阅读全文在人工智能的研究中,我们关心的是在序贯决策里如何实现长期目标的最优化;然而,一旦缺乏全局校正,哪怕每一步看似合理,仍可能在错误前提上越走越偏。在多步骤任务中,Agent 可能由于对指令的误解、知识的缺
阅读全文随着数字化时代的到来,文档数量急剧增加。文本文件、网页、幻灯片、海报、电子表格数据,甚至场景文本图像。这些文档不仅封装了不同行业内部和外部事务的处理细节和积累的知识,还涵盖了大量的行业相关实例和数据,
阅读全文长程、多轮对话(long-horizon, multi-turn dialogues)一直是当前AI应用领域中一个非常核心且常见的场景。无论是进行复杂的推理、利用外部知识库(RAG)还是使用工具(To
阅读全文对于提升AI能主动发现问题、提出假设、调用工具并执行解决方案,在真实环境里闭环工作,而不只是在对话里“想”的智能体能力(Agency)。在这篇论文之前的传统方法认为,需要遵循传统语言模型的“规模法则”
阅读全文谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》(Google Cloud 创业公司技术指南:AI 代理)这是一份非常详尽和全面的手
阅读全文Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。但在
阅读全文