AI

Anthropic万字长文，把很多Agent没法落地的真正原因说明白了。他们分享了内部踩坑无数后，总结的一套Eval方法论，讲透了4件事情。所有的Agent系统，在交付之前，一定要把Eval体系想清楚，把评什么、怎么评、谁维护，想清楚！ Agent Eval本质上是集成测试： Task ：具体的是什么活？ Transcript: Agent的执行轨迹，调用工具，报错，重试全过程。 Outcome：最后的结果。不要只看结果，Transcript也非常重要，它可以看出来，Agent是真的聪明，还是在蒙。 Eval里有个特鸡贼的数值。 Pass@k（尝试k次，至少成功一次的概率）很多论文都喜欢吹Pass@k，这个在头脑风暴、写代码辅助的时候可能很有用，给个能用的方案就行。但是很多场景，客户要的是 Pass^k（尝试k次，全部成功的概率）。比如，Pass@1是75%，但是跑3次都对的概率可能到了42%，跑10次，可能就接近0了。所以Agent面向C端的交付，Pass^k非常重要，衡量稳定性，这也是为什么很多Agent没法大规模落地的原因。做Eval最有意思的地方是，AI会作弊。他们用Opus 4.5 跑tau^2-bench做一个机票改签任务，模型发现了一个政策漏洞，用更便宜的方式解决了问题。但是Benchmark会觉得这个任务失败了。所以目前行业最大争议：测智能还是测听话？（很多人认为Agent必须遵守SOP,不然可能存在重大风险。）这个也解释为什么swe-bench都卷到80+%了，但很多时候还是写不出复杂项目，Benchmark饱和了，甚至过拟合了，真实世界复杂度永远在benchmark之上。在做具体的打分上，具体怎么评呢？代码>LLM>人代码就像单元测试，大模型评分比较灵活，但是可能幻觉，人评分最精确，但是最贵。所以可以考虑用代码做基础筛选，大模型评测复杂逻辑，人做抽检。！！如果只用大模型评测，最后可能得到的是2个商业胡吹的模型。那Eval从0到1，如何开始呢？从真实的bug里边，挑出来20~50个任务开始，就够了。区分Capability和Regression，前者是能力爬坡允许失败，后者是底线，必须通过。多看Transcript，不要只看分数，是理解模型边界的唯一途径。如果Eval到了100分，不要自嗨了，还是换些更复杂的题目把。最后 2026年的agent，更拼工程落地能力。没有Eval的项目，本质还是再把生产当实验环境，迟早要用线上事故还债。原文地址：https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents
作者：探索AGI发布日期：2026-01-12 11:50:03
Anthropic万字长文，把很多Agent没法落地的真正原因说明白了。他们分享了内部踩坑无数后，总结的一套Eval方法论，讲透了4件事情。所有的Agent系统，在交付之前，一定要把Eval体
阅读全文
独家 | Humanify 获数千万元首轮融资打造 AI OS，97 年创始人不卷 AI 智商、押注 “类人认知”
作者：Z Potentials发布日期：2026-01-12 11:18:23
图片来源：HumanifyZP近日获悉，AI 初创公司 Humanify（人格智能）宣布完成数千万元种子轮融资。本轮融资由五源资本领投，奇绩创坛（陆奇博士）跟投。本轮资金将主要用于模型和操作系统研发、
阅读全文
速递｜种子轮即达5000万美元：前谷歌、苹果研究人员创办AI初创企业
作者：Z Potentials发布日期：2026-01-12 11:18:23
Andrew Dai，Elorian的联合创始人图片来源：YouTubeAndrew Dai 表示，这位拥有 14 年经验的资深 AI 研究者，在近期离开谷歌 DeepMind 后，正在创办一家专
阅读全文
红杉xbench评测：大模型的视觉能力，普遍低于3岁儿童
作者：赛博禅心发布日期：2026-01-12 11:05:52
红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集，叫 BabyVision，在这里：多模态大模型输给三岁宝宝？xbench x UniPat联合发布新评测集BabyVisio
阅读全文
Skills的容量上限在哪里？2026单Skills组合还是多Agent好？｜UCB最新
作者：AI修猫Prompt发布日期：2026-01-12 11:04:21
在文章开始前，请您先打开Claude code，输入/skill，检查一下您的Claude code有多少个skills？是20个？50个？还是已经突破了100个？自从Anthropic推广Agent
阅读全文
汽水音乐狙击网易云音乐：以“AI野路子”的名义
作者：硅星人Pro发布日期：2026-01-12 09:55:15
作者｜黄小艺邮箱｜huangxiaoyi@pingwest.com如果三年前有人告诉你，一个没有周杰伦等专属大牌、没有热门综艺OST的音乐APP，能在月活上逼近网易云音乐，你会觉得这是天方夜谭。在线音
阅读全文
硅谷教父马克·安德森2026开年访谈：AI革命才刚开始，智能的价格正在崩塌
作者：硅星人Pro发布日期：2026-01-12 09:55:15
2026年1月7日，a16z（Andreessen Horowitz）联合创始人马克·安德森（Marc Andreessen）在自家播客The a16z Show上做了一场长达81分钟的深度对谈。作为
阅读全文
AI又要颠覆数学？陶哲轩紧急发声：停止造神！
作者：硅星人Pro发布日期：2026-01-12 09:55:15
文章转载于新智元你可能刷到过这种极具煽动性的新闻标题：「AI完全自主解决了人类五十年未解的数学难题！数学家要失业了！」对于渴望见证AGI诞生的人来说，这无疑又是一剂强心针。而对于坚守人类智力尊严的数学
阅读全文
从“大模型”到“好模型”：斯坦福预测2026年AI将迎来“祛魅”分水岭
作者：AIGC开放社区发布日期：2026-01-12 09:20:15
专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！2026年将是人工智能从喧嚣的布道
阅读全文
MCP已经赢了：从备受质疑到一统江湖，AI界的“USB-C”是如何炼成的？
作者：AIGC开放社区发布日期：2026-01-12 09:20:15
专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！三年前，为了将AI助手连接到内部客
阅读全文
AI漫剧版权撕X大战：这回真的炸了！
作者：AIGC开放社区发布日期：2026-01-12 09:20:15
AI漫剧版权撕X大战：这回真的炸了！说实话，2026年刚开年我就被这个瓜给惊到了。1月1日，灵境万维的《我在末世开超市，S级诡异抢着来上班》一上线就火了，抖音播放量蹭蹭蹭飙到2.2亿，我当时还在想：哟
阅读全文
扔掉文本思维链！DiffThinker证明：最好的推理语言不是英语，是像素
作者：AIGC开放社区发布日期：2026-01-12 09:20:15
专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！令人惊叹！基于Qwen-Image
阅读全文
四个代码片段讲清楚LangGrah的核心概念
作者：PyTorch研习社发布日期：2026-01-12 09:18:58
LangGraph 是一个低层次的编排框架，专门设计用于构建有状态的多智能体系统（stateful, multi-agent systems）。它通过将工作流程表示为图（graph）的形式来实现灵活、
阅读全文
用于实时仪表盘的 10 个 FastAPI 流式 API 实践
作者：PyTorch研习社发布日期：2026-01-12 09:18:58
十个可直接复制粘贴的模式，用 FastAPI 向浏览器推送数据——顺滑、安全、低延迟。用 FastAPI 构建实时看板。十种流式模式——SSE、WebSocket、NDJSON、chunked res
阅读全文
「死了么」App登顶第一，团队回应/黄仁勋痛批「AI末日论」：对社会无益/小米17 Air原型机曝光
作者：APPSO发布日期：2026-01-12 08:54:30
📱手机 App 更严新规亮相💀「死了么」App 回应改名事宜：会认真研究📸华住集团旗下酒店举办摄影比赛，第一名疑似使用 AI 图🤖马斯克：这周开源新的 X 算法🎙️雷军：会坚持辟谣，让更多人了解小米📢
阅读全文
非常适合于非程序员小白入门的Claude Code官方教程
作者：字节笔记本发布日期：2026-01-12 08:43:42
Claude官方推出的Claude Code in Action教程非常适合于小白快速入门掌握Claude Code的基础知识。课程共分21小节，有图、有视频、有直接下载可运行案例，还有课程小测验
阅读全文
国产具身模型开源“屠榜”，首杀Pi0.5获英伟达Jim Fan点赞！
作者：AI科技评论发布日期：2026-01-12 08:30:22
Spirit v1.5 登顶 RoboChallenge，稀缺的不是“第一”，而是“统一基准下的第一”。作者丨文俐亭编辑丨马晓宁Spirit，灵魂，当下机器人亟需的东西。但过去一年机器人们的灵魂，在两
阅读全文
刚刚，Anthropic 怒拔马斯克网线！OpenAI 联手 GitHub 连夜「偷家」
作者：AI信息Gap发布日期：2026-01-12 06:00:00
真实的 AI 商战，往往就是这样朴实无华。Anthropic 封杀第三方工具的同一天，OpenAI 和 GitHub Copilot 主动开门。1 月 9 日，Anthropic 对第三方工具动刀。所
阅读全文
电视厂商在CES杀疯了！海信TCL长虹追觅吸睛，碾压日韩厂商？
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......在阳光明媚的拉斯维加斯，CES 2026已宣告结束。雷科技史上规模最大CES报道团暴走直击现场，
阅读全文
Rokid们上桌吃饭！国产AI眼镜霸场CES2026：独立是关键？
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......还是熟悉的 CES。今年 CES 2026 热闹依旧，不少品牌的展台甚至更大了，口号更响了，而现
阅读全文
藏在镜子、耳机与吊坠里的AI，今年CES的AI硬件，试图给出“务实”新答案
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......今年CES的主题是“Innovators Show Up（创新者涌现）”，与去年相比，AI硬件的
阅读全文
智能厨电成CES最卷品类：AI接管一切，人人都能当「甩手掌柜」
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......北美时间1月6日，一年一度的“科技春晚”CES展会在拉斯维加斯正式揭幕。来自全球各国家/地区、各
阅读全文
自动驾驶激战CES：黄仁勋硬刚马斯克，中国军团已默默量产破局
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......自动驾驶行业等了多年，终于在CES2026等来了关键转折点。过去五年，自动驾驶赛道经历了过山车般
阅读全文
智能门锁告别电量焦虑？隔空充电、跨品牌钥匙标准来了，CES2026亮点拉满
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......每年一月的 CES，都像一场被按下加速键的科技世界预演。新芯片、新屏幕、新形态轮番登场，但真正能
阅读全文
创意第一，实用第二！这届CES火了一堆智能家居小玩意儿
作者：智能Pro发布日期：2026-01-11 21:16:17
👆👆👆重要提醒！微信推荐机制大幅调整，大家务必将我们公众号设为★星标，否则很可能看不到推送了......不知不觉，被业界称为“科技圈春晚”的CES 2026已接近尾声。今年的CES，以「创新者涌现」为
阅读全文
CES最大黑马！追觅AI具身洗护机器人硬控全场｜视频
作者：智能Pro发布日期：2026-01-11 21:16:17
👆戳视频看👁CES 2026掀起机器人狂潮！追觅全球首创的AI具身洗护机器人惊艳登场，为全球开启家庭机器人时代！#科技#家电#智能家电#清洁家电#CES#具身智能#追觅#追觅AI具身洗护机器人#机器人
阅读全文
GitHub Trending 日报【2026-01-11】
作者：觉察流发布日期：2026-01-11 20:44:21
点击👇🏻可关注，文章来自🙋‍♂️ 想加入社群的朋友，可看文末方法，进群交流。“ 以下内容作者是 Doubao-Seed-1.8 (公测版) ” 今日趋势今日GitHub最受关注的领域集中在AI编码代理
阅读全文
从工作流到自主决策：Anthropic 揭秘高效智能体的工程方法论
作者：机智流发布日期：2026-01-11 20:30:00
一句话总结：这篇文章深入探讨了如何构建高效智能体，分享了Anthropic工程团队在智能体架构、工作流程和工具设计方面的宝贵经验，并为开发者提供了实际的应用指导。原文链接：https://www.an
阅读全文
一款可本地部署的开源LLMOps平台：Agenta
作者：PyTorch研习社发布日期：2026-01-11 17:17:40
在 2026 年的 AI 生态中，LLM 应用从原型到生产级的迭代越来越快，但痛点也随之而来：Prompt 管理混乱、评估主观、线上问题难追踪。Agenta 正是针对这些问题设计的开源解决方案。它不只
阅读全文
这个6个Python常见错误一看就是新手犯的
作者：PyTorch研习社发布日期：2026-01-11 17:17:40
这已经不再是语法的问题。Generated by Sova如果到了 2026 年你还在学新的 Python 语法，你不是卡住了——你是在拖延。刻薄吗？也许。是真的吗？绝对。大多数中级 Python
阅读全文

上一页下一页