全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    中国科大认知全重实验室发布 Science-Star(科星) : 一体化、可扩展的科学智能体搭建平台

    作者:NLP PaperWeekly发布日期:2025-08-25 14:28:09

    中科大认知智能全国重点实验室开发实现 Science-Star 科研智能体平台。它基于 ReAct 引擎,融合了规划(Planning)、行动(Action)、记忆(Memory)、反思(Refle

    阅读全文
  • 文章封面

    再看OpenAI PaperBench:Agent离独立复现AI论文还有多远?

    作者:NLP PaperWeekly发布日期:2025-08-21 09:43:14

    大家好,我是HxShine今天分享一篇来自OpenAI的文章,Title: PaperBench: Evaluating AI's Ability to Replicate AI Research

    阅读全文
  • 文章封面

    字节也来卷Agent工具调用了?FTRL: 无需外部工具,五步自动化构建训练环境,LLM工具调用能力飙升10%

    作者:NLP PaperWeekly发布日期:2025-08-13 17:36:10

    大家好,我是HxShine今天分享一篇来自字节跳动和复旦大学的研究,标题为 《通过自动化构建环境的反馈驱动方法提升大型语言模型的工具使用能力》 (Feedback-Driven Tool-Use I

    阅读全文
  • 文章封面

    ICML 2025|AI智能体也能自我进化?威斯康星大学提出MetaAgent框架,让AI自己设计AI

    作者:NLP PaperWeekly发布日期:2025-08-06 16:54:05

    大家好,我是HxShine今天分享一篇来自威斯康星大学麦迪逊分校的文章,Title: MetaAgent: Automatically Constructing Multi-Agent System

    阅读全文
  • 文章封面

    ICLR25 | 告别手搓workflow!AI 能自己设计更强智能体吗?

    作者:NLP PaperWeekly发布日期:2025-07-11 10:18:01

    今天分享一篇ICLR25的一篇文章,标题为:AUTOMATED DESIGN OF AGENTIC SYSTEMS(自动化Agent设计系统)。手写workflow太累啦,这篇文章探讨了如何自动化设

    阅读全文
  • 文章封面

    CMU |LLM在数学推理能力的提升是否能迁移到其他领域?

    作者:NLP PaperWeekly发布日期:2025-07-05 15:47:23

    大家好,我是HxShine今天分享一篇来自卡耐基梅隆大学、宾夕法尼亚大学、华盛顿大学、M-A-P 和香港理工大学的研究,标题为:《Does Math Reasoning Improve Genera

    阅读全文
  • 文章封面

    DeepMind | 合成数据+RL,SWiRL让大模型拥有超强“工具脑”!

    作者:NLP PaperWeekly发布日期:2025-07-04 15:55:30

    大家好,我是HxShine今天分享一篇来自斯坦福大学和 Google DeepMind 的文章,标题为:《Synthetic Data Generation & Multi-Step RL for

    阅读全文
  • 文章封面

    ACL25 | SURVEYFORGE: 让AI写出结构严谨、引用精准的高质量综述

    作者:NLP PaperWeekly发布日期:2025-06-30 23:21:42

    大家好,我是HxShine今天分享一篇来自上海人工智能实验室、复旦大学和上海交通大学 的研究论文,标题为《SURVEYFORGE: On the Outline Heuristics, Memory

    阅读全文
  • 文章封面

    ACL25 | DOLPHIN,Closed-loop Auto-research系统来帮你自动做科研了!

    作者:NLP PaperWeekly发布日期:2025-06-10 17:35:13

    大家好,我是HxShine今天分享一篇上海人工智能实验室 的文章,标题为 DOLPHIN: Moving Towards Closed-loop Auto-research through Thin

    阅读全文
  • 文章封面

    成本暴降88%!通义实验室、北大发布ZeroSearch,无需搜索即可激活LLM检索能力

    作者:NLP PaperWeekly发布日期:2025-06-06 09:40:54

    本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿

    阅读全文
  • 文章封面

    Harvard | RL如何放大pretraining过程中学到的行为?

    作者:NLP PaperWeekly发布日期:2025-05-28 13:01:58

    今天分享一篇来自 Harvard University 和 Kempner Institute 的文章,标题为 Echo Chamber: RL Post-training Amplifies Be

    阅读全文
  • 文章封面

    Microsoft | reward model需要用推理模型吗?

    作者:NLP PaperWeekly发布日期:2025-05-23 10:31:45

    今天分享一篇来自Microsoft公司、清华大学和北京大学的一篇文章,Title: Reward Reasoning Model: 奖励推理模型。这篇文章探索了一种名为“奖励推理模型(RRMs)”的

    阅读全文
  • 文章封面

    去年错过黄金的人,现在都在疯抢它!

    作者:NLP PaperWeekly发布日期:2025-05-22 07:22:43

    阅读全文
  • 文章封面

    啥工作量?!60天就发了一篇NLP顶会

    作者:NLP PaperWeekly发布日期:2025-05-21 09:10:00

    搞科研,最怕的就是每天“眼睛读文献,脑袋想方案”。以为只要文献读的够多,准备就足够充分,就能找到好选题,写出好文章。实际上是在用“勤奋读文献”掩盖“不敢开始干”的焦虑。过来人都知道:科研成果是干出来的

    阅读全文
  • 文章封面

    DeepMid | RL还需要value function吗?

    作者:NLP PaperWeekly发布日期:2025-05-19 11:44:52

    今天分享一篇来自 DeepMind 的研究论文,标题为:Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM

    阅读全文
  • 文章封面

    Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案

    作者:NLP PaperWeekly发布日期:2025-04-28 16:48:17

    Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案大家好,我是HxShine今天分享一篇来自 NVIDIA 的文章(kaggle AIMO2冠军方案,冠军奖金高达26w美金,总奖池超

    阅读全文
  • 文章封面

    无需标注数据!TTRL用“少数服从多数”解锁大模型测试时强化学习新范式

    作者:NLP PaperWeekly发布日期:2025-04-27 14:28:53

    大家好,我是HxShine!今天分享一篇来自清华大学和上海人工智能实验室的文章,标题为 TTRL: Test-Time Reinforcement Learning(测试时强化学习)。这篇文章探讨了

    阅读全文
  • 文章封面

    震惊!强化学习训练后,大模型推理“天花板”反而降低了?清华研究揭示RLVR局限性

    作者:NLP PaperWeekly发布日期:2025-04-24 15:23:18

    大家好,我是HxShine今天分享一篇来自清华的文章,标题为:“Does Reinforcement Learning Really Incentivize Reasoning Capacity i

    阅读全文
  • 文章封面

    2025新风口!AI大模型又起飞了!

    作者:NLP PaperWeekly发布日期:2025-04-16 09:24:28

    2025开年,AI技术打得火热,正在改变程序员的职业命运:阿里云核心业务全部接入Agent体系;字节跳动30%后端岗位要求大模型开发能力;腾讯、京东、百度开放招聘技术岗,80%与AI相关……大模型正在

    阅读全文
  • 文章封面

    中国科大认知全重实验室发布Agent-R1训练框架,支持自主思考与工具调用!

    作者:NLP PaperWeekly发布日期:2025-04-02 09:19:38

    什么是 Agent-R1imgAgent-R1是由中科大认知智能全国重点实验室开发的智能体强化学习训练框架,致力于推进强化学习与智能体技术的融合发展。框架采用端到端强化学习方法,突破了依赖人工设计工

    阅读全文
  • 文章封面

    香港科技大学联合DeepSeek-AI推出CODEI/O:让AI学会“浓缩”推理模式

    作者:NLP PaperWeekly发布日期:2025-04-01 07:28:57

    大家好,我是HxShine今天分享一篇香港科技大学、DeepSeek-AI和上海交通大学联合发表的文章,标题为:CODEI/O: Condensing Reasoning Patterns via

    阅读全文
  • 文章封面

    人工标注太贵,合成数据不够好?看OS-Genesis如何破解数据困局

    作者:NLP PaperWeekly发布日期:2025-03-31 10:55:08

    从1920年的小说《R.U.R》到《钢铁侠》中的JARVIS,在过去的一个世纪里,人们一直梦想着构建能够自动化日常工作的Digital Agents(数字代理)。如今,随着视觉语言模型(VLMs)的

    阅读全文