全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    RLPT:用强化学习“重读”预训练数据,让大模型学会思考

    作者:觉察流发布日期:2025-10-05 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当大模型训练遭遇高质量数据瓶颈,腾讯团队提出RLPT——一种无需人类标注、仅用预训练数据即可训练推理能力的强化学习新范式

    阅读全文
  • 文章封面

    OnePiece:工业排序系统的新范式——上下文工程与隐式推理如何突破性能瓶颈

    作者:觉察流发布日期:2025-10-04 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当工业排序系统陷入性能瓶颈,OnePiece给出了破局答案:结构化上下文工程 + 块状隐式推理。这不是简单的架构升级,而

    阅读全文
  • 文章封面

    LIMI:仅78个样本如何重塑智能体训练范式?

    作者:觉察流发布日期:2025-10-03 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当行业追逐更大模型、更多数据时,LIMI逆流而上,证明高质量示范的战略性精炼才是通往真正智能体的关键。这不仅是效率的胜利

    阅读全文
  • 文章封面

    Tree-GRPO:树式搜索让小模型也能玩转多轮智能体

    作者:觉察流发布日期:2025-10-02 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 阿里巴巴AMAP与厦门大学联合提出Tree-GRPO,通过树式搜索将LLM智能体RL的预算效率与信号质量双双提升,为小模

    阅读全文
  • 文章封面

    8B模型为何能打败GPT-4o?UserRL揭秘“用户中心”Agent的三大训练法则

    作者:觉察流发布日期:2025-10-01 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Salesforce AI Research提出UserRL框架,挑战“大模型即强交互”的固有认知。通过系统化实验,揭示

    阅读全文
  • 文章封面

    效率与性能的平衡:DeepSeek-V3.2-Exp 用稀疏注意力将长上下文成本砍掉85%

    作者:觉察流发布日期:2025-09-30 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ DeepSeek AI推出V3.2-Exp,以稀疏注意力技术重构长上下文处理范式,在性能持平下实现推理成本骤降,为大模型

    阅读全文
  • 文章封面

    从崩溃到可靠:深度研究智能体RL训练的“标准配方”揭秘

    作者:觉察流发布日期:2025-09-29 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 从“能做”到“可靠做”,深度研究智能体的进化正依赖于RL训练的三大突破——稳定性、效率与多模态融合。本文基于最新综述,揭

    阅读全文
  • 文章封面

    无标签进化:EVOL-RL用“多数选择+新颖变异”破解大模型“熵坍缩”困局

    作者:觉察流发布日期:2025-09-28 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当AI因“内卷”而丧失创造力,腾讯AI Lab的EVOL-RL框架带来了破局之钥。它不依赖标签,而是用“选择+变异”的进

    阅读全文
  • 文章封面

    从探索到验证:Parallel-R1 如何塑造大模型的"思考"哲学

    作者:觉察流发布日期:2025-09-27 08:21:41

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Parallel-R1首次通过强化学习让大语言模型从零开始学会"并行思考",突破了传统监督微调的局限。本文介绍了其"三步

    阅读全文
  • 文章封面

    告别“视而不见”:CARE框架让大模型真正读懂上下文

    作者:觉察流发布日期:2025-09-26 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM对上下文证据“选择性失明”,RAG也无能为力?来自蒙特利尔大学与MetaGPT团队的CARE框架,开创“原生检索

    阅读全文
  • 文章封面

    从写代码到写规则:SASE框架下,人类如何成为AI智能体的“教练”

    作者:觉察流发布日期:2025-09-25 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AI智能体正重塑软件工程,但真正的瓶颈与机遇都在“人”。本文探讨了SASE框架,揭示人类如何从执行者跃升为战略指挥官,为

    阅读全文
  • 文章封面

    告别新闻滞后:QuantAgent如何用纯价格数据在4小时周期斩获80%胜率

    作者:觉察流发布日期:2025-09-24 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 告别黑箱与信息滞后!Stony Brook团队推出QuantAgent,首个纯价格驱动的多智能体LLM高频交易框架。零样

    阅读全文
  • 文章封面

    Agentize Everything:EnvX如何把18个GitHub仓库变成能协作的AI指挥家?

    作者:觉察流发布日期:2025-09-23 08:13:48

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ EnvX将GitHub仓库化为可协作的智能体,通过三阶段流程与A2A协议,实现了从“手动集成”到“自然语言调度”的范式跃

    阅读全文
  • 文章封面

    【概述】通义DeepResearch开源发布:首个匹敌OpenAI的全栈Web Agent(七篇6.5万字)

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 通义DeepResearch重磅开源!全球首个性能匹敌OpenAI的全栈Web Agent,登顶HLE、BrowseCo

    阅读全文
  • 文章封面

    WebResearcher:从线性累积到迭代进化,重塑AI研究范式的三大支柱

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 阿里通义实验室提出IterResearch范式,本文揭示其如何通过“迭代合成”重构长程智能体架构,实现可持续的高质量推理

    阅读全文
  • 文章封面

    ReSum:让AI智能体学会“记笔记”,突破长程推理瓶颈

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 上下文窗口限制了AI的思考深度?ReSum通过周期性总结与重启机制,首次实现LLM智能体的无限探索能力,为长程推理打开新

    阅读全文
  • 文章封面

    WebWeaver:一个模仿人类思维的AI研究员是如何炼成的?

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ WebWeaver提出“动态大纲+分层写作”新范式,通过Planner与Writer双智能体协同,实现证据强接地的深度研

    阅读全文
  • 文章封面

    超越规模神话:WebSailor-V2 的数据-环境协同之道

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ WebSailor-V2以30B模型超越671B闭源系统,证明“数据+环境”双引擎比算法本身更重要。本文深度解析其系统工

    阅读全文
  • 文章封面

    从AgentFounder看未来:智能体基础模型的崛起与"持续预训练"新范式

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 通义实验室提出“智能体持续预训练”新范式,通过FAS/HAS数据合成与两阶段训练,打造预对齐智能体基础模型AgentFo

    阅读全文
  • 文章封面

    环境即智能:从AgentScaler看下一代AI智能体的进化论

    作者:觉察流发布日期:2025-09-22 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 阿里通义实验室提出“Environment Scaling”新范式,通过全自动构建可验证的模拟环境,为智能体训练提供高质

    阅读全文
  • 文章封面

    多模态“啊哈时刻”:自编码器如何让理解与生成真正相爱相杀

    作者:觉察流发布日期:2025-09-21 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当前多模态模型的“统一”多是伪命题。北大与百度团队提出UAE框架,以自编码器视角和重建目标,首次实现理解与生成的相互成就

    阅读全文
  • 文章封面

    HANRAG:用“启发式”决策终结多跳问答的噪声与低效困局

    作者:觉察流发布日期:2025-09-20 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 蚂蚁集团提出HANRAG框架,通过引入“启发式”智能体Revelator,系统性解决了多跳问答中的效率低下与噪声累积难题

    阅读全文
  • 文章封面

    3B小模型吊打32B大模型?BAAI 的新研究 InfoSeek 数据炼金术

    作者:觉察流发布日期:2025-09-19 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当业界还在堆参数时,BAAI用一套开源框架证明:数据质量才是AI的胜负手。3B小模型性能反超32B大模型,这不是奇迹,而

    阅读全文
  • 文章封面

    SEDM:让智能体记忆“越用越聪明”的自进化架构

    作者:觉察流发布日期:2025-09-18 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当智能体记忆越多,表现反而越差?Gradient团队的SEDM框架,用实证准入与自进化调度,让记忆系统越用越聪明,为长期

    阅读全文
  • 文章封面

    当你的AI助手开始“替你谈判”:虚拟智能体经济如何重塑你的钱包、时间和选择权

    作者:觉察流发布日期:2025-09-18 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当智能体以人类无法反应的速度进行交易,你的生活决策权正在被悄然转移。Google DeepMind最新研究揭示,一个“高

    阅读全文
  • 文章封面

    告别碎片化训练:VERLTOOL开源如何塑造工具使用型LLM的强化学习

    作者:觉察流发布日期:2025-09-17 08:10:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当前LLM智能体研究困于碎片化与低效执行。VERLTOOL提出统一插件接口与异步流水线,首次实现跨数学、搜索、SQL等六

    阅读全文
  • 文章封面

    统一视角下的HPT:动态融合SFT与RL,释放LLM后训练新潜能

    作者:觉察流发布日期:2025-09-16 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 清华团队提出HPT算法,基于统一理论框架,让模型自适应融合SFT与RL,效果全面超越SOTA,小模型也能受益,工程师必备

    阅读全文
  • 文章封面

    "顿悟"会传染,94%性能跃升:SAPO如何用“共享经验”重构小模型RL训练

    作者:觉察流发布日期:2025-09-15 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 无需昂贵集群,不惧硬件异构。Gensyn AI团队的SAPO算法,让全球分散的消费级设备组成“蜂群”,通过共享解题经验,

    阅读全文
  • 文章封面

    OpenAI 论文:为什么AI宁可胡说也不说“我不知道”?

    作者:觉察流发布日期:2025-09-14 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 幻觉并非神秘故障,而是统计学习下的必然错误。本文揭示:语言模型的“胡说”,源于密度估计目标与二元评测体系的双重驱动。理解

    阅读全文
  • 文章封面

    推理的深度边界:神经网络如何在有限参数下实现多步推理?

    作者:觉察流发布日期:2025-09-13 08:14:58

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当LLM在奥赛摘金时,我们是否真正理解了它们的"推理"能力?研究者通过1dCA基准揭示:多步状态传播是真正的推理瓶颈,而

    阅读全文
上一页下一页