从崩溃到可靠:深度研究智能体RL训练的“标准配方”揭秘
点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 从“能做”到“可靠做”,深度研究智能体的进化正依赖于RL训练的三大突破——稳定性、效率与多模态融合。本文基于最新综述,揭
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 从“能做”到“可靠做”,深度研究智能体的进化正依赖于RL训练的三大突破——稳定性、效率与多模态融合。本文基于最新综述,揭
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当AI因“内卷”而丧失创造力,腾讯AI Lab的EVOL-RL框架带来了破局之钥。它不依赖标签,而是用“选择+变异”的进
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Parallel-R1首次通过强化学习让大语言模型从零开始学会"并行思考",突破了传统监督微调的局限。本文介绍了其"三步
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM对上下文证据“选择性失明”,RAG也无能为力?来自蒙特利尔大学与MetaGPT团队的CARE框架,开创“原生检索
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AI智能体正重塑软件工程,但真正的瓶颈与机遇都在“人”。本文探讨了SASE框架,揭示人类如何从执行者跃升为战略指挥官,为
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 告别黑箱与信息滞后!Stony Brook团队推出QuantAgent,首个纯价格驱动的多智能体LLM高频交易框架。零样
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ EnvX将GitHub仓库化为可协作的智能体,通过三阶段流程与A2A协议,实现了从“手动集成”到“自然语言调度”的范式跃
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 通义DeepResearch重磅开源!全球首个性能匹敌OpenAI的全栈Web Agent,登顶HLE、BrowseCo
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 阿里通义实验室提出IterResearch范式,本文揭示其如何通过“迭代合成”重构长程智能体架构,实现可持续的高质量推理
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 上下文窗口限制了AI的思考深度?ReSum通过周期性总结与重启机制,首次实现LLM智能体的无限探索能力,为长程推理打开新
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ WebWeaver提出“动态大纲+分层写作”新范式,通过Planner与Writer双智能体协同,实现证据强接地的深度研
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ WebSailor-V2以30B模型超越671B闭源系统,证明“数据+环境”双引擎比算法本身更重要。本文深度解析其系统工
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 通义实验室提出“智能体持续预训练”新范式,通过FAS/HAS数据合成与两阶段训练,打造预对齐智能体基础模型AgentFo
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 阿里通义实验室提出“Environment Scaling”新范式,通过全自动构建可验证的模拟环境,为智能体训练提供高质
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当前多模态模型的“统一”多是伪命题。北大与百度团队提出UAE框架,以自编码器视角和重建目标,首次实现理解与生成的相互成就
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 蚂蚁集团提出HANRAG框架,通过引入“启发式”智能体Revelator,系统性解决了多跳问答中的效率低下与噪声累积难题
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当业界还在堆参数时,BAAI用一套开源框架证明:数据质量才是AI的胜负手。3B小模型性能反超32B大模型,这不是奇迹,而
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当智能体记忆越多,表现反而越差?Gradient团队的SEDM框架,用实证准入与自进化调度,让记忆系统越用越聪明,为长期
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当智能体以人类无法反应的速度进行交易,你的生活决策权正在被悄然转移。Google DeepMind最新研究揭示,一个“高
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当前LLM智能体研究困于碎片化与低效执行。VERLTOOL提出统一插件接口与异步流水线,首次实现跨数学、搜索、SQL等六
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 清华团队提出HPT算法,基于统一理论框架,让模型自适应融合SFT与RL,效果全面超越SOTA,小模型也能受益,工程师必备
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 无需昂贵集群,不惧硬件异构。Gensyn AI团队的SAPO算法,让全球分散的消费级设备组成“蜂群”,通过共享解题经验,
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 幻觉并非神秘故障,而是统计学习下的必然错误。本文揭示:语言模型的“胡说”,源于密度估计目标与二元评测体系的双重驱动。理解
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM在奥赛摘金时,我们是否真正理解了它们的"推理"能力?研究者通过1dCA基准揭示:多步状态传播是真正的推理瓶颈,而
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM从“问答机器”蜕变为“研究伙伴”,一场静默革命正在发生。Agentic RL赋予AI真正的规划、工具使用与自我进
阅读全文本文由 Intern-S1、Qwen3 等 AI 生成, 由机智流编辑部校对;下方简洁版播客由 ListenHub AI 生成想象这样一个场景:在工业流水线上,一台 Franka Panda 机械臂需
阅读全文今天看到一个新闻,MCP发布了一个注册中心介绍,详细内容:https://blog.modelcontextprotocol.io/posts/2025-09-08-mcp-registry-prev
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Claude Code 凭借极简架构与精妙提示词,为开发者带来“愉悦感”十足的编程体验。本文探索其设计哲学,揭示“强得离
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Google DeepMind最新研究显示出嵌入式检索的根本性理论限制,证明即使是最先进的AI模型也受制于向量空间的数学
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 腾讯ARC Lab联合中科院团队提出AudioStory,通过解耦设计与端到端训练,将叙事音频生成时长从30秒提升至15
阅读全文