全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    协同 RAG-Reasoning:让大模型边想边查的“深度研究”范式(万字综述)

    作者:觉察流发布日期:2025-07-26 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当大模型开始“边找边想”,检索与推理不再是单向流程,而是一场实时对话。百篇论文、几十个基准、4 大踩坑指南,为你画出一张

    阅读全文
  • 文章封面

    重新审视 LLM:集体知识的动态映射与人机共舞

    作者:觉察流发布日期:2025-07-11 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当我们与大型语言模型对话交流时,是否意识到它是我们集体知识的映射?它并非传统意义上的工具,而是一个动态激发智能的系统。本

    阅读全文
  • 文章封面

    OctoThinker:借“中期训练”之力,缩小 Llama 和 Qwen 模型的差距

    作者:觉察流发布日期:2025-07-10 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在大型语言模型的推理能力提升之路上,OctoThinker 研究直击核心——通过精妙的中期训练策略,成功唤醒 Llama

    阅读全文
  • 文章封面

    WebSailor 突破边界:助力开源智能体跨越复杂推理 “天花板”

    作者:觉察流发布日期:2025-07-09 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当信息如潮水般涌来,人类的认知却受限于生理与思维的边界。智能体技术成为破局利器,可开源智能体却长期被性能瓶颈所困。Web

    阅读全文
  • 文章封面

    终结奖励欺骗?Google Deepmind 提出 Crome 框架(万字)

    作者:觉察流发布日期:2025-07-08 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 大型语言模型的对齐问题一直困扰着人工智能领域。奖励欺骗问题使模型基于表面特征赋予高分,导致策略与高质量行为脱节。Goog

    阅读全文
  • 文章封面

    ASTRO:赋予语言模型搜索式推理能力的创新框架(万字)

    作者:觉察流发布日期:2025-07-07 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 推理能力是衡量模型先进性的重要指标之一。ASTRO 框架,为开源语言模型推理能力的提升带来了新的思路,让我们重新思考如何

    阅读全文
  • 文章封面

    推理锚点:解码LLM推理的关键节点(可解释性研究)

    作者:觉察流发布日期:2025-07-06 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在 LLM 的推理过程中,某些关键句子如同“锚点”,对整个推理轨迹产生深远影响。本文通过三种创新方法分析这些“推理锚点”

    阅读全文
  • 文章封面

    Skywork-Reward-V2:人类-AI协同创新,解锁奖励模型新潜力

    作者:觉察流发布日期:2025-07-05 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 尽管奖励模型在 RLHF 中扮演着关键角色,但现有开源模型在多数评估基准上表现不佳。Skywork-Reward-V2

    阅读全文
  • 文章封面

    Mind2Web 2:智能体搜索系统的进化与评估之道

    作者:觉察流发布日期:2025-07-01 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在信息大量溢出的时代,智能体搜索系统正以其强大的自主性和智能化能力,重塑我们获取知识的方式。Mind2Web 2 基准测

    阅读全文
  • 文章封面

    MCP 安全之殇:智能体系统的隐忧与破局

    作者:觉察流发布日期:2025-06-28 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在 MCP 驱动的智能代理系统蓬勃发展的当下,我们正站在技术革新的十字路口。它带来了前所未有的交互体验,却也潜藏了不容忽

    阅读全文
  • 文章封面

    STORYWRITER:长篇故事生成的多智能体框架

    作者:觉察流发布日期:2025-06-27 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 文字是一切内容的起点,IP 是泛娱乐行业的宝藏。该来的总要来,AI迈进长篇故事生成领域,话语连贯性与叙事复杂性是LLM生

    阅读全文
  • 文章封面

    掌控 AI 智能体自主性:五级框架下的人机协作之道(万字)

    作者:觉察流发布日期:2025-06-20 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AI智能体自主性分级,是掌控其潜力与风险的关键。在AI浪潮中,如何精准校准智能体自主性,使其高效服务人类又不致失控,是需

    阅读全文
  • 文章封面

    模型合并 之 PMA 策略:大型语言模型预训练的 “加速引擎”

    作者:觉察流发布日期:2025-06-19 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 大型语言模型发展迅猛,但预训练成本高昂、训练不稳定等问题需要解决。本文探讨了预训练模型合并技术,尤其是 PMA 策略,为

    阅读全文
  • 文章封面

    2025年AI驱动软件开发:16款“Vibe Coding”工具盘点(2.5万字)

    作者:觉察流发布日期:2025-06-18 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 本文聚焦2025年AI Coding领域,解析Vibe Coding新范式,其核心是通过自然语言描述,AI辅助生成代码,

    阅读全文
  • 文章封面

    AgentRM 奖励建模:智能体泛化能力的“导航仪”与“加速器”(万字)

    作者:觉察流发布日期:2025-06-16 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ AgentRM 提出三种奖励模型方法,显式奖励建模、隐式奖励建模和LLM作为裁判。AgentRM 通过创新的奖励建模和测

    阅读全文
  • 文章封面

    Agentic Neural Networks(ANN):自我演化的多智能体系统

    作者:觉察流发布日期:2025-06-13 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ ANN(Agentic Neural Networks)的核心目标是借助神经网络的原理,实现多智能体系统的自我演化,从而

    阅读全文
  • 文章封面

    强化预训练(RPT):LLM 预训练新范式,当模型学会战略思考(万字)

    作者:觉察流发布日期:2025-06-12 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ RPT 通过将传统的 next-token-prediction 重构为 next-token-reasoning 任务

    阅读全文
  • 文章封面

    AgentCPM-GUI:强化微调(RFT)赋能的移动设备 GUI 智能体(万字)

    作者:觉察流发布日期:2025-06-12 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在移动设备 GUI 操作领域,AgentCPM-GUI 凭借强化微调、高质量数据集与紧凑动作空间设计,突破语言壁垒,在多

    阅读全文
  • 文章封面

    LLM 智能体终身学习评估利器:LifelongAgentBench 框架(万字)

    作者:觉察流发布日期:2025-06-11 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ LifelongAgentBench,可以评估 LLM 智能体的终身学习能力哦!这是首个专门设计用于系统评估 LLM

    阅读全文
  • 文章封面

    Qwen3 嵌入与重排序(技术报告):复杂指令下的文本处理新能手(万字)

    作者:觉察流发布日期:2025-06-10 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 前些天 Qwen3 冷不丁的发布了 Embedding 让人惊喜。已经有小伙伴做了自己业务上的测试,据说挺好用,一起看看

    阅读全文
  • 文章封面

    GitHub Trending 日报【2025-06-08】

    作者:觉察流发布日期:2025-06-09 00:03:47

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 以下内容作者是 grok-2-1212” 今日趋势今天GitHub上最受关注的项目主要集中在人工智能和开发工具领域。特别

    阅读全文
  • 文章封面

    Qwen:PARSCALE 让语言模型在并行中飞跃(万字)

    作者:觉察流发布日期:2025-06-08 08:15:55

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 传统的参数扩展和推理时间扩展方法面临着内存和时间成本的双重困境。PARSCALE,作为一种全新的并行扩展范式,通过增加并

    阅读全文
  • 文章封面

    RL 驱动 LLM 智能体:ML-Agent 创新自主机器学习工程(万字)

    作者:觉察流发布日期:2025-06-07 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 在机器学习工程领域,自主智能体的研究正逐渐成为焦点。ML-Agent 为这一领域带来了新思路。它凭借创新的学习型 age

    阅读全文
  • 文章封面

    ALPHAONE(α1):LRM 自适应推理效率与准确性的平衡之道

    作者:觉察流发布日期:2025-06-06 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 大型推理模型(LRM)正不断突破复杂推理任务的边界。然而,它们在推理过程中常常陷入过度推理或推理不足的困境。如今,ALP

    阅读全文
  • 文章封面

    论智能体互联网的崛起:智能经济性驱动的价值转移与生态重构(二万字)

    作者:觉察流发布日期:2025-06-05 08:15:00

    “ 作者简介:侯宏,北京大学国家发展研究院管理学助理教授,承泽企业家研修项目学术主任,剑桥大学博士。在攻读博士学位前,在国内高科技行业有近十年工作经验,在多家公司历任咨询顾问、战略经理、战略部总经理、

    阅读全文
  • 文章封面

    NVIDIA 新成果:ProRL 拓展 LLM 推理边界(万字)

    作者:觉察流发布日期:2025-06-05 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ ProRL 方法通过长时间稳定训练与多样化任务组合,有效引导模型探索新推理路径,使 Nemotron-Research-

    阅读全文
  • 文章封面

    定义任务 + 合成数据:智能训练的高效引擎 —— Synthetic Data RL(万字)

    作者:觉察流发布日期:2025-06-01 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Synthetic Data RL 为我们提供了一种新的解决方案。它仅凭任务定义,就能生成合成数据并进行强化学习训练,无

    阅读全文
  • 文章封面

    MARFT:多智能体协作与强化学习微调的协同进化(万字)

    作者:觉察流发布日期:2025-05-31 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ MARFT(Multi-Agent Reinforcement Fine-Tuning)作为一种新兴技术,正以其独特的优

    阅读全文
  • 文章封面

    当异常奖励遇上 AI 推理:一场意料之外的智力提升(万字)

    作者:觉察流发布日期:2025-05-29 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ 当随意的奖励信号仍可以大幅提升模型性能,就得重新思考:到底RL是在学习,还是在放大某种“先验”行为。” 大家好,我是肆〇

    阅读全文
  • 文章封面

    奖励推理模型(RRM):革新奖励模型的新范式(万字)

    作者:觉察流发布日期:2025-05-28 08:15:00

    点击👇🏻可关注,文章来自🙋‍♂️ 想加入社群的朋友,可看文末方法,进群交流。“ Post-train 技术中的reward model(奖励模型)扮演着至关重要的角色。然而,传统奖励模型在利用测试时计

    阅读全文
上一页下一页