Tommy学习录

一行代码让小模型干翻GPT-5.5！把AI逼成程序员自己修Bug，这篇神仙论文火了
作者：Tommy学习录发布日期：2026-07-20 08:38:00
大道至简：让AI智能体通过“读文件”实现极速自我进化想象一下，你雇佣了一个绝顶聪明的实习生（AI大模型）。为了让他做好工作，你给了他一本《工作手册》（技能提示词）和一套办公软件（运行框架/工具）。然而
阅读全文
2.8T 参数、百万上下文、长程 Agent：Kimi K3 的 DeepSeek 2.0 时刻
作者：Tommy学习录发布日期：2026-07-19 09:08:00
过去一年，很多人对大模型的期待已经变了。以前我们关心的是：它会不会写文案、能不能回答问题、代码补全准不准。现在真正有价值的问题变成了：它能不能接住一个复杂任务？能不能读完整个项目？能不能自己查资料、写
阅读全文
DeepMind重磅警告：AGI只是引信！当“硅基神明”超越全人类总和，世界会发生什么？
作者：Tommy学习录发布日期：2026-07-15 09:08:00
一、论文速览论文名片论文标题： From AGI to ASI（从通用人工智能到超级人工智能）论文网址：https://arxiv.org/pdf/2606.12683作者团队： Tim Genew
阅读全文
大满贯！霸榜52项测试无一败绩！揭秘微软SkillOpt：如何把“技能”当参数练，让大模型原地飞升？
作者：Tommy学习录发布日期：2026-07-13 09:08:00
一、论文速览论文名片论文标题： SkillOpt: Executive Strategy for Self-Evolving Agent Skills（SkillOpt：面向自我进化智能体技能的执行
阅读全文
为什么你的AI聊着聊着就“变傻”了？看完苹果这篇最新神作，我恍然大悟……
作者：Tommy学习录发布日期：2026-07-10 08:18:00
一、论文速览论文名片论文标题：Self-Compacting Language Model Agents （具备自我压缩能力的语言模型代理）论文网址：https://arxiv.org/pdf/26
阅读全文
从 Prompt 到 Loop：AI 编程真正的下一步，是让 Agent 持续把事做完
作者：Tommy学习录发布日期：2026-07-08 08:18:00
原文链接：https://claude.com/blog/getting-started-with-loops很多人用 AI 编程工具时，都会遇到一个相似的尴尬：你让它改一个功能，它确实改了；你让它跑
阅读全文
不是写更多 Prompt，而是给 Agent 建制度：Claude Code 七种可控机制全拆解
作者：Tommy学习录发布日期：2026-07-06 08:18:00
原文链接：https://claude.com/blog/steering-claude-code-skills-hooks-rules-subagents-and-more很多团队刚开始用 AI 编
阅读全文
别再只会写 Prompt 了：Claude Code 正在进入“可控 Agent”时代
作者：Tommy学习录发布日期：2026-07-03 08:18:00
过去一年，很多人使用 AI 编程工具的方式都很相似：打开工具，输入需求，然后期待模型一次性给出代码。刚开始这确实很惊艳，但用久之后，问题也会越来越明显：同一个项目里，你每次都要反复告诉它项目怎么启动、
阅读全文
一口气吞下整本电子书！逼AI“学会遗忘”后，百度这项黑科技 Unlimited OCR竟反杀GPT-4o登顶第一
作者：Tommy学习录发布日期：2026-07-01 08:18:00
一、论文速览在正式开启硬核科普之前，我们先来认识一下今天的主角——一篇试图改变人工智能阅读长文档方式的重磅技术报告。论文基本信息论文标题：UnlimitedOCRWorks: Welcome the
阅读全文
提速85%还不降智！DeepSeek“瀑布式吐字”的秘密藏不住了，这项刚开源的王炸黑科技DSpark到底有多牛？
作者：Tommy学习录发布日期：2026-06-29 08:18:00
一、论文速览1. 论文基本信息论文标题： DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Gene
阅读全文
告别只会“狂戳屏幕”的笨AI！腾讯混元扔出王炸，手机智能体这回真能“干实事”了
作者：Tommy学习录发布日期：2026-06-26 08:08:00
一、论文速览论文标题： PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions（Phone
阅读全文
突破大模型能力天花板：给AI配一个能自我进化的“黄金办公区”——HarnessX 深度精读
作者：Tommy学习录发布日期：2026-06-24 08:38:00
一、论文速览论文名片论文标题： HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry（HarnessX：一个可组
阅读全文
Agent强化学习新里程碑：SAPO框架如何通过“边际效用”打破技能幻觉？
作者：Tommy学习录发布日期：2026-06-22 08:08:00
一、论文速览论文名片论文标题： Co-Evolving Skill Generation and Policy Optimization（技能生成与策略优化的协同进化，简称 SAPO ）论文网址：ht
阅读全文
SkillGenBench：大模型智能体技能生成流水线基准测试
作者：Tommy学习录发布日期：2026-06-18 09:10:03
一、论文速览在我们还在惊叹于AI能熟练使用各种工具（比如调用天气API、使用计算器）的时候，全球顶尖的AI研究团队已经把目光投向了下一个更具革命性的命题：如果世界上还没有现成的工具，AI能不能自己
阅读全文
长时运行的 AI Agent：从“一次性调用”到“持续产出”
作者：Tommy学习录发布日期：2026-06-16 08:08:00
过去两年，我们对 AI Agent 的理解，大多还停留在一个很熟悉的画面里：你打开一个聊天窗口，输入一个目标，Agent 开始思考、调用工具、生成代码、修改文件。你看着 token 一行行流出来，如果
阅读全文
从 Prompt 到 Loop：AI 编程的下一站，不是会提问，而是会设计循环
作者：Tommy学习录发布日期：2026-06-15 08:08:00
这两年，很多人都在学习怎么更好地使用 AI 写代码。一开始，大家最关注的是一件事：Prompt 到底怎么写？怎么描述需求？怎么补充上下文？怎么一步一步追问？怎么让 AI 输出更稳定、更像你想要的样子？
阅读全文
当“代码”成为AI的肉身：一篇重磅论文，讲透未来5年“超级智能体”的底层逻辑
作者：Tommy学习录发布日期：2026-06-12 09:08:00
一、论文速览论文名片论文标题：《Code as Agent Harness: Toward Executable, Verifiable, and Stateful Agent Systems》（
阅读全文
别再盲目给AI扩充上下文了！字节&复旦新研究：让AI彻底告别“死记硬背”！
作者：Tommy学习录发布日期：2026-06-10 09:08:00
一、论文速览论文名片论文标题： Task-Focused Memorization for Multimodal Agents（多模态智能体的任务导向型记忆）论文网址：https://arxiv.o
阅读全文
及格率竟不到20%！腾讯&复旦发布硬核评测(CL-bench Life)，扯下了顶尖大模型的“遮羞布”
作者：Tommy学习录发布日期：2026-06-08 08:18:00
一、论文速览论文名片论文标题： CL-BENCH LIFE: CAN LANGUAGE MODELS LEARN FROM REAL-LIFE CONTEXT? （CL-bench Life：语言模
阅读全文
Claude Opus 4.8 深度解读：诚实性革命、动态工作流与用户真实反馈
作者：Tommy学习录发布日期：2026-06-07 09:38:00
距离 Opus 4.7 仅 41 天，Anthropic 于 2026 年 5 月 28 日推出旗舰迭代 Claude Opus 4.8。定价不变，却在代码诚实性、代理工作流和速度调控等维度带来了可感
阅读全文
别再烧钱微调大模型了！北大最新研究：改变接口，而不是模型，针对确定性LLM智能体的运行时脚手架适配
作者：Tommy学习录发布日期：2026-06-04 08:18:00
一、论文速览论文名片论文标题：Adapting the Interface, Not the Model: Runtime Harness Adaptation for Deterministic
阅读全文
全球27款最强AI集体翻车！你以为它在“读心”，其实全靠“瞎蒙”
作者：Tommy学习录发布日期：2026-06-02 08:18:00
一、论文速览论文名片论文标题： Perception or Prejudice: Can MLLMs Go Beyond First Impressions of Personality?（是感知还是
阅读全文
通向AGI的新钥匙？MIT&谷歌云重磅发文：SkillOS如何让AI学会自我进化与经验总结？
作者：Tommy学习录发布日期：2026-05-31 09:38:00
一、论文速览论文名片论文标题： SkillOS: Learning Skill Curation for Self-Evolving Agents（SkillOS：为自我进化智能体学习技能管理）论文
阅读全文
告别“重复造轮子”：统一流式API与AI智能体工具的终极方案(HarnessAPI)
作者：Tommy学习录发布日期：2026-05-27 08:18:00
一、论文速览1. 基本信息论文标题： HARNESSAPI: A SKILL-FIRST FRAMEWORK FOR UNIFIED STREAMING APIS AND MCP TOOLS（Harn
阅读全文
别再迷信“微调”了！AI 学会了左脚踩右脚自己升级，清华这篇新论文太绝了
作者：Tommy学习录发布日期：2026-05-25 08:18:00
一、论文速览论文标题：SkillEvolver: Skill Learning as a Meta-Skill （SkillEvolver：将“学习技能”本身作为一种元技能）论文网址：https:/
阅读全文
大白话拆解SKILLGEN：如何不改一行代码，给大模型装上一个自动打怪的“外挂”？
作者：Tommy学习录发布日期：2026-05-23 16:56:47
论文速览论文标题： SKILLGEN: Verified Inference-Time Agent Skill Synthesis（SKILLGEN：经过验证的推理时智能体技能合成）论文网址：http
阅读全文
MemEye：揭秘GPT-4、Gemini集体翻车背后的真相，以及下一代多模态智能体的突围之路
作者：Tommy学习录发布日期：2026-05-20 08:18:00
论文名片论文标题： MemEye: A Visual-Centric Evaluation Framework for Multimodal Agent Memory（MemEye：一个以视觉为中心的
阅读全文
别再盲目等GPT-5了！其实给AI配一张“专属办公桌”，它就能瞬间变身资深程序员
作者：Tommy学习录发布日期：2026-05-15 15:57:01
一、核心摘要论文基本信息论文标题： AI Harness Engineering: A Runtime Substrate for Foundation-Model Software Agents（A
阅读全文
深度精读GLM-5V-Turbo：看图写代码、搜资料做PPT，真正的“数字员工”是如何炼成的？
作者：Tommy学习录发布日期：2026-05-13 08:18:00
相关推荐：AI 视觉领域的“O1 时刻”来了？让模型从“看图”进化到“推理”，智谱做对了什么？太猛了！仅0.9B参数干翻千亿大模型，智谱GLM-OCR凭什么成为“地表最强”小钢炮？被老外误认成Clau
阅读全文
首次量化解剖大模型！我们真的需要那么昂贵的“注意力机制”吗？
作者：Tommy学习录发布日期：2026-05-11 08:18:00
一、核心摘要论文标题：Large Vision–Language Models Get Lost in Attention （大型视觉-语言模型在注意力中迷路了）论文网址：https://arxiv
阅读全文