Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体系想清楚,把评什么、怎么评、谁维护,想清楚! Agent Eval本质上是集成测试: Task : 具体的是什么活? Transcript: Agent的执行轨迹,调用工具,报错,重试全过程。 Outcome: 最后的结果。 不要只看结果,Transcript也非常重要,它可以看出来,Agent是真的聪明,还是在蒙。 Eval里有个特鸡贼的数值。 Pass@k(尝试k次,至少成功一次的概率) 很多论文都喜欢吹Pass@k,这个在头脑风暴、写代码辅助的时候可能很有用,给个能用的方案就行。 但是很多场景,客户要的是 Pass^k(尝试k次,全部成功的概率)。 比如,Pass@1是75%,但是跑3次都对的概率可能到了42%,跑10次,可能就接近0了。 所以Agent面向C端的交付,Pass^k非常重要,衡量稳定性,这也是为什么很多Agent没法大规模落地的原因。 做Eval最有意思的地方是,AI会作弊。 他们用Opus 4.5 跑tau^2-bench做一个机票改签任务,模型发现了一个政策漏洞,用更便宜的方式解决了问题。 但是Benchmark会觉得这个任务失败了。 所以目前行业最大争议:测智能还是测听话? (很多人认为Agent必须遵守SOP,不然可能存在重大风险。) 这个也解释为什么swe-bench都卷到80+%了,但很多时候还是写不出复杂项目,Benchmark饱和了,甚至过拟合了,真实世界复杂度永远在benchmark之上。 在做具体的打分上,具体怎么评呢? 代码>LLM>人 代码就像单元测试,大模型评分比较灵活,但是可能幻觉,人评分最精确,但是最贵。 所以可以考虑用代码做基础筛选,大模型评测复杂逻辑,人做抽检。 !!如果只用大模型评测,最后可能得到的是2个商业胡吹的模型。 那Eval从0到1,如何开始呢? 从真实的bug里边,挑出来20~50个任务开始,就够了。 区分Capability和Regression,前者是能力爬坡允许失败,后者是底线,必须通过。 多看Transcript,不要只看分数,是理解模型边界的唯一途径。 如果Eval到了100分,不要自嗨了,还是换些更复杂的题目把。 最后 2026年的agent,更拼工程落地能力。 没有Eval的项目,本质还是再把生产当实验环境,迟早要用线上事故还债。 原文地址:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体
阅读全文