NLP PaperWeekly

深度解读：Alpha Arena背后细节，LLM距离“华尔街之狼”还有多远？
作者：NLP PaperWeekly发布日期：2025-11-05 09:08:01
今天分享一篇来自AI研究机构 Nof1 的文章，Title: Exploring the Limits of Large Language Models as Quant Traders（探索大型语
阅读全文
Trade in Minutes! 揭秘首个将策略与执行完全分离的量化交易Agent
作者：NLP PaperWeekly发布日期：2025-10-30 17:05:47
今天分享一篇来自同济大学与微软亚洲研究院等机构的文章，题为《TRADE IN MINUTES! RATIONALITY-DRIVEN AGENTIC SYSTEM FOR QUANTITATIVE
阅读全文
SOTA诞生！Meta发布AIRA-dojo框架，AI智能体Kaggle竞赛奖牌率提升至47.7%
作者：NLP PaperWeekly发布日期：2025-10-20 17:15:28
大家好，我是HxShine今天分享一篇来自Meta FAIR、伦敦大学学院（UCL）和厄勒布鲁大学的研究人员共同发表的文章，Title: Al Research Agents for Machine
阅读全文
AI Agent落地必读：深度解读OpenAI 姚顺雨的T-bench，如何评测智能体的“真功夫”
作者：NLP PaperWeekly发布日期：2025-10-17 11:34:16
大家好，我是HxShine，今天继续来分享OpenAI 姚顺雨的一篇文章，这篇文章探讨了Agent实际落地时该如何评测，他在the second half里面也提了这篇文章，是Agent真正落地到
阅读全文
ACL 2025 | 蚂蚁GALLa：用图结构增强代码大模型，让代码理解更精准！
作者：NLP PaperWeekly发布日期：2025-10-14 09:47:31
▍简介本文源于蚂蚁集团与上海交通大学的校企合作项目，目前已被 ACL 2025 主会接收。ACL（Annual Meeting of the Association for Computational
阅读全文
AgentFly：重塑Agent，无需微调LLM，如我们一样的记忆和经验持续学习
作者：NLP PaperWeekly发布日期：2025-10-11 11:13:54
近年来，大型语言模型（LLM）智能体已成为AI领域的热点，它们能自主使用工具、进行多步推理，完成复杂任务，如深度研究、代码生成、多轮对话等。然而，现有的LLM智能体面临两大困境：一是依赖静态、手工设计
阅读全文
当前AI-Scientist Benchmarks深度分析报告
作者：NLP PaperWeekly发布日期：2025-09-19 00:19:33
1 概述1 TL;DR — 核心结论（要点）1. 目前衡量 “AI 当科研助理 / AI-Scientist” 的 benchmark 大致落在两条主线：（A）论文复现 / 代码实现（repro /
阅读全文
再看SWE-Bench：论一个好的benchmark是如何推动2025 Agentic编程范式的发展
作者：NLP PaperWeekly发布日期：2025-09-18 00:23:08
大家好，我是HxShine～今天继续来看下经典的code benchmark之SWE-BENCH的细节, 其由普林斯顿大学和芝加哥大学联合发表于ICLR 2024，Title: SWE-bench
阅读全文
清华大学｜从互联网架构视角，重新审视AI智能体通信的挑战与机遇
作者：NLP PaperWeekly发布日期：2025-09-17 09:31:10
大家好，我是HxShine。今天分享来自中关村实验室和清华大学的一篇观点文章：AI Agent Communication from Internet Architecture Perspectiv
阅读全文
再看GAIA Benchamrk：他是如何推动Agent系统的发展的？
作者：NLP PaperWeekly发布日期：2025-09-16 00:05:04
大家好，我是HxShine。今天再来看看GAIA Benchmark的细节，来看看GAIA如何成为Agent领域最经典的BenchMark之一。它由Meta FAIR、Hugging Face、Au
阅读全文
斯坦福最新研究：最强LLM也搞不定前沿代码！Gemini 2.5 Pro成功率不足40%
作者：NLP PaperWeekly发布日期：2025-09-01 11:23:53
大家好，我是HxShine今天分享一篇来自斯坦福大学的Benchmark文章，Title: ResearchCodeBench: Benchmarking LLMs on Implementing
阅读全文
中国科大认知全重实验室发布 Science-Star（科星） : 一体化、可扩展的科学智能体搭建平台
作者：NLP PaperWeekly发布日期：2025-08-25 14:28:09
中科大认知智能全国重点实验室开发实现 Science-Star 科研智能体平台。它基于 ReAct 引擎，融合了规划（Planning）、行动（Action）、记忆（Memory）、反思（Refle
阅读全文
再看OpenAI PaperBench：Agent离独立复现AI论文还有多远？
作者：NLP PaperWeekly发布日期：2025-08-21 09:43:14
大家好，我是HxShine今天分享一篇来自OpenAI的文章，Title: PaperBench: Evaluating AI's Ability to Replicate AI Research
阅读全文
字节也来卷Agent工具调用了？FTRL: 无需外部工具，五步自动化构建训练环境，LLM工具调用能力飙升10%
作者：NLP PaperWeekly发布日期：2025-08-13 17:36:10
大家好，我是HxShine今天分享一篇来自字节跳动和复旦大学的研究，标题为《通过自动化构建环境的反馈驱动方法提升大型语言模型的工具使用能力》 (Feedback-Driven Tool-Use I
阅读全文
ICML 2025｜AI智能体也能自我进化？威斯康星大学提出MetaAgent框架，让AI自己设计AI
作者：NLP PaperWeekly发布日期：2025-08-06 16:54:05
大家好，我是HxShine今天分享一篇来自威斯康星大学麦迪逊分校的文章，Title: MetaAgent: Automatically Constructing Multi-Agent System
阅读全文
ICLR25 | 告别手搓workflow！AI 能自己设计更强智能体吗?
作者：NLP PaperWeekly发布日期：2025-07-11 10:18:01
今天分享一篇ICLR25的一篇文章，标题为：AUTOMATED DESIGN OF AGENTIC SYSTEMS（自动化Agent设计系统）。手写workflow太累啦，这篇文章探讨了如何自动化设
阅读全文
CMU ｜LLM在数学推理能力的提升是否能迁移到其他领域？
作者：NLP PaperWeekly发布日期：2025-07-05 15:47:23
大家好，我是HxShine今天分享一篇来自卡耐基梅隆大学、宾夕法尼亚大学、华盛顿大学、M-A-P 和香港理工大学的研究，标题为：《Does Math Reasoning Improve Genera
阅读全文
DeepMind | 合成数据+RL，SWiRL让大模型拥有超强“工具脑”！
作者：NLP PaperWeekly发布日期：2025-07-04 15:55:30
大家好，我是HxShine今天分享一篇来自斯坦福大学和 Google DeepMind 的文章，标题为：《Synthetic Data Generation & Multi-Step RL for
阅读全文
ACL25 | SURVEYFORGE: 让AI写出结构严谨、引用精准的高质量综述
作者：NLP PaperWeekly发布日期：2025-06-30 23:21:42
大家好，我是HxShine今天分享一篇来自上海人工智能实验室、复旦大学和上海交通大学的研究论文，标题为《SURVEYFORGE: On the Outline Heuristics, Memory
阅读全文
ACL25 | DOLPHIN，Closed-loop Auto-research系统来帮你自动做科研了！
作者：NLP PaperWeekly发布日期：2025-06-10 17:35:13
大家好，我是HxShine今天分享一篇上海人工智能实验室的文章，标题为 DOLPHIN: Moving Towards Closed-loop Auto-research through Thin
阅读全文
成本暴降88%！通义实验室、北大发布ZeroSearch，无需搜索即可激活LLM检索能力
作者：NLP PaperWeekly发布日期：2025-06-06 09:40:54
本文作者来自通义实验室和北京大学，第一作者是北京大学智能学院博士生孙浩，主要研究方向是RAG和Agent，在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文，师从张岩教授。该工作在阿
阅读全文
Harvard | RL如何放大pretraining过程中学到的行为？
作者：NLP PaperWeekly发布日期：2025-05-28 13:01:58
今天分享一篇来自 Harvard University 和 Kempner Institute 的文章，标题为 Echo Chamber: RL Post-training Amplifies Be
阅读全文
Microsoft | reward model需要用推理模型吗？
作者：NLP PaperWeekly发布日期：2025-05-23 10:31:45
今天分享一篇来自Microsoft公司、清华大学和北京大学的一篇文章，Title: Reward Reasoning Model: 奖励推理模型。这篇文章探索了一种名为“奖励推理模型（RRMs）”的
阅读全文
去年错过黄金的人，现在都在疯抢它！
作者：NLP PaperWeekly发布日期：2025-05-22 07:22:43
阅读全文
啥工作量？！60天就发了一篇NLP顶会
作者：NLP PaperWeekly发布日期：2025-05-21 09:10:00
搞科研，最怕的就是每天“眼睛读文献，脑袋想方案”。以为只要文献读的够多，准备就足够充分，就能找到好选题，写出好文章。实际上是在用“勤奋读文献”掩盖“不敢开始干”的焦虑。过来人都知道：科研成果是干出来的
阅读全文
DeepMid | RL还需要value function吗?
作者：NLP PaperWeekly发布日期：2025-05-19 11:44:52
今天分享一篇来自 DeepMind 的研究论文，标题为：Putting the Value Back in RL: Better Test-Time Scaling by Unifying LLM
阅读全文
Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案
作者：NLP PaperWeekly发布日期：2025-04-28 16:48:17
Kaggle | 总奖池超200万美金的数学竞赛AIMO2冠军方案大家好，我是HxShine今天分享一篇来自 NVIDIA 的文章（kaggle AIMO2冠军方案，冠军奖金高达26w美金，总奖池超
阅读全文
无需标注数据！TTRL用“少数服从多数”解锁大模型测试时强化学习新范式
作者：NLP PaperWeekly发布日期：2025-04-27 14:28:53
大家好，我是HxShine！今天分享一篇来自清华大学和上海人工智能实验室的文章，标题为 TTRL: Test-Time Reinforcement Learning（测试时强化学习）。这篇文章探讨了
阅读全文
震惊！强化学习训练后，大模型推理“天花板”反而降低了？清华研究揭示RLVR局限性
作者：NLP PaperWeekly发布日期：2025-04-24 15:23:18
大家好，我是HxShine今天分享一篇来自清华的文章，标题为：“Does Reinforcement Learning Really Incentivize Reasoning Capacity i
阅读全文
2025新风口！AI大模型又起飞了！
作者：NLP PaperWeekly发布日期：2025-04-16 09:24:28
2025开年，AI技术打得火热，正在改变程序员的职业命运：阿里云核心业务全部接入Agent体系；字节跳动30%后端岗位要求大模型开发能力；腾讯、京东、百度开放招聘技术岗，80%与AI相关……大模型正在
阅读全文