协同 RAG-Reasoning:让大模型边想边查的“深度研究”范式(万字综述)
点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当大模型开始“边找边想”,检索与推理不再是单向流程,而是一场实时对话。百篇论文、几十个基准、4 大踩坑指南,为你画出一张
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当大模型开始“边找边想”,检索与推理不再是单向流程,而是一场实时对话。百篇论文、几十个基准、4 大踩坑指南,为你画出一张
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当我们与大型语言模型对话交流时,是否意识到它是我们集体知识的映射?它并非传统意义上的工具,而是一个动态激发智能的系统。本
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在大型语言模型的推理能力提升之路上,OctoThinker 研究直击核心——通过精妙的中期训练策略,成功唤醒 Llama
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当信息如潮水般涌来,人类的认知却受限于生理与思维的边界。智能体技术成为破局利器,可开源智能体却长期被性能瓶颈所困。Web
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 大型语言模型的对齐问题一直困扰着人工智能领域。奖励欺骗问题使模型基于表面特征赋予高分,导致策略与高质量行为脱节。Goog
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 推理能力是衡量模型先进性的重要指标之一。ASTRO 框架,为开源语言模型推理能力的提升带来了新的思路,让我们重新思考如何
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在 LLM 的推理过程中,某些关键句子如同“锚点”,对整个推理轨迹产生深远影响。本文通过三种创新方法分析这些“推理锚点”
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 尽管奖励模型在 RLHF 中扮演着关键角色,但现有开源模型在多数评估基准上表现不佳。Skywork-Reward-V2
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在信息大量溢出的时代,智能体搜索系统正以其强大的自主性和智能化能力,重塑我们获取知识的方式。Mind2Web 2 基准测
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在 MCP 驱动的智能代理系统蓬勃发展的当下,我们正站在技术革新的十字路口。它带来了前所未有的交互体验,却也潜藏了不容忽
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 文字是一切内容的起点,IP 是泛娱乐行业的宝藏。该来的总要来,AI迈进长篇故事生成领域,话语连贯性与叙事复杂性是LLM生
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AI智能体自主性分级,是掌控其潜力与风险的关键。在AI浪潮中,如何精准校准智能体自主性,使其高效服务人类又不致失控,是需
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 大型语言模型发展迅猛,但预训练成本高昂、训练不稳定等问题需要解决。本文探讨了预训练模型合并技术,尤其是 PMA 策略,为
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 本文聚焦2025年AI Coding领域,解析Vibe Coding新范式,其核心是通过自然语言描述,AI辅助生成代码,
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AgentRM 提出三种奖励模型方法,显式奖励建模、隐式奖励建模和LLM作为裁判。AgentRM 通过创新的奖励建模和测
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ ANN(Agentic Neural Networks)的核心目标是借助神经网络的原理,实现多智能体系统的自我演化,从而
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ RPT 通过将传统的 next-token-prediction 重构为 next-token-reasoning 任务
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在移动设备 GUI 操作领域,AgentCPM-GUI 凭借强化微调、高质量数据集与紧凑动作空间设计,突破语言壁垒,在多
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ LifelongAgentBench,可以评估 LLM 智能体的终身学习能力哦!这是首个专门设计用于系统评估 LLM
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 前些天 Qwen3 冷不丁的发布了 Embedding 让人惊喜。已经有小伙伴做了自己业务上的测试,据说挺好用,一起看看
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 以下内容作者是 grok-2-1212” 今日趋势今天GitHub上最受关注的项目主要集中在人工智能和开发工具领域。特别
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 传统的参数扩展和推理时间扩展方法面临着内存和时间成本的双重困境。PARSCALE,作为一种全新的并行扩展范式,通过增加并
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在机器学习工程领域,自主智能体的研究正逐渐成为焦点。ML-Agent 为这一领域带来了新思路。它凭借创新的学习型 age
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 大型推理模型(LRM)正不断突破复杂推理任务的边界。然而,它们在推理过程中常常陷入过度推理或推理不足的困境。如今,ALP
阅读全文“ 作者简介:侯宏,北京大学国家发展研究院管理学助理教授,承泽企业家研修项目学术主任,剑桥大学博士。在攻读博士学位前,在国内高科技行业有近十年工作经验,在多家公司历任咨询顾问、战略经理、战略部总经理、
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ ProRL 方法通过长时间稳定训练与多样化任务组合,有效引导模型探索新推理路径,使 Nemotron-Research-
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Synthetic Data RL 为我们提供了一种新的解决方案。它仅凭任务定义,就能生成合成数据并进行强化学习训练,无
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ MARFT(Multi-Agent Reinforcement Fine-Tuning)作为一种新兴技术,正以其独特的优
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底RL是在学习,还是在放大某种“先验”行为。” 大家好,我是肆〇
阅读全文点击👇🏻可关注,文章来自🙋♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Post-train 技术中的reward model(奖励模型)扮演着至关重要的角色。然而,传统奖励模型在利用测试时计
阅读全文