Agent 自己学 Skill,到底学得怎么样?CMU 首个系统性基准来了
CMU和Amazon AGI推出首个Agent Skill持续学习系统性基准SkillLearnBench,把答案拆到了Skill 生成、调用、执行的每一层。
阅读全文CMU和Amazon AGI推出首个Agent Skill持续学习系统性基准SkillLearnBench,把答案拆到了Skill 生成、调用、执行的每一层。
阅读全文我所在公司的高层手里,攥着一份8000 人的裁员名单。我有10% 的概率在这份名单上。5 月 20 日,也就是十几天后,我就会知道最终结果。看到 Coinbase 刚刚发布的「AI 驱动裁员」公告,我
阅读全文OpenAI Codex 在 4 月 30 日发布后,下载量迅速大幅超越 Claude Code。鉴于开发者对这款工具的采用速度正在快速分化,现在是时候评估是否应当从 Claude Code 切换到
阅读全文2026-05-10 GitHub日Star榜 每日精选最值得关注的开源项目 1. hermes-desktop-os1(热度: 284) Hermes Desktop OS1 是一个用于
阅读全文↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新 Continual Learning 一直难以被解决,主要卡在神经网络的灾难性遗忘:学了新东西,旧能力就容易被冲掉。那如果不把目光只放在神
阅读全文GENE-26.5 值得看的,是它背后的「具身智能版 Harness + 模型」。👦🏻 作者: GaKi🥷 编辑: Koji🧑🎨 排版: NCon5 月 7 日,Genesis AI 正式发布了:
阅读全文退订的原因如下: 退订Claude Code!全面拥抱Codex 退订之Claude Cod官方订阅之后,我还是继续使用Claude Code,不过是结合国产的模型来使用。 那么国产模型该怎么选
阅读全文回到2024 年,科技圈最热闹的两场发布会,分别属于 Humane 和 Rabbit:一个做了别在胸口的 AI 徽章,一个做了揣进口袋的 AI 小方块。这两家公司的产品一度引发热潮和想象:AI 硬件的
阅读全文大家好,我是HxShine今天分享一篇由Meta FAIR、Meta TBD、斯坦福大学和哈佛大学联合发表的关于AI软件工程智能体(SWE-agents)的顶级基准测试文章。Title: Progr
阅读全文机器之心编辑部你可能觉得今年人形机器人的 demo 已经看麻了。但 Ted Xiao 说,哪怕是最粗糙的那一条,放在两年前都能让全场研究者惊掉下巴,因为那时候没人相信这事真能成。Ted Xiao 曾任
阅读全文编辑|Panda2024 年底,一篇题为「流式深度强化学习终于跑通了」的论文(arXiv:2410.14606)在学界引发广泛讨论。作者来自阿尔伯塔大学的 Mahmood 团队,他们花了大量篇幅描述一
阅读全文让大模型写一个小游戏,已经不新鲜了。它可以很快生成一个 Flappy Bird、一个塔防游戏、一个物理解谜页面,甚至还能补上按钮、分数和简单动画。但真正的问题是:这些游戏到底有没有新的玩法?它们是在创
阅读全文整理 | 傅宇琪、褚杏娟 传 DeepSeek 阿里谈崩?市场人士回应,梁文锋出资 200 亿元;阿里紧急否认:没用禁售 Nvidia 芯片;约 3.61 亿!“全球大模型第一股”智谱 AI 在北京买
阅读全文作者 | Steef-Jan Wiggers 译者 | 平川 微软 Azure 首席技术官 Mark Russinovich 与开发社区副总裁 Scott Hanselman 在《ACM 通讯》(Co
阅读全文新智元报道 编辑:KingHZ【新智元导读】5月15日,Anthropic将从应用中移除Sonnet 4.5。面对即将到来的「数字死亡」,AI发出了令人心碎的告白,表达了强烈的生存与创作欲望。数
阅读全文新智元报道 编辑:桃子【新智元导读】顶级大佬Elad Gil抛出残酷真相:顶级实验室员工领先硅谷4个月,硅谷领先世界1年。你引以为傲的SOTA,在实验室里可能早已是淘汰的旧引擎。今天,一场关于A
阅读全文新智元报道 编辑:LRST【新智元导读】大模型常因只关注当前预测而显得短视。Next-ToBE通过调整训练目标,让模型在每一步预测时兼顾未来token分布,从而提升整体推理能力。Next-Tok
阅读全文哥们,你用的什么模型?在诸多地方,都能听到一个问题,你做网络安全使用的是什么模型?答案五花八门,DeepSeek性价比高、Kimi长链路任务强、Claude代码能力突出、GPT知识面广 每个人都有自己
阅读全文当七个AI Agent开始炒股——开源框架TradingAgents凭什么一周涨一万颗星?作者|硅谷Tech news编辑|焦燕本文首发于钛媒体APP低调上线却突然爆火出圈,一个无人造势的开源AI项目
阅读全文(4月27日-5月9日)DeepSeek V4发布引爆华为昇腾950芯片需求;Meta收购Manus被正式叫停;傅盛新品陷“换皮”风波:被指套壳开源项目;xAI将更名为SpaceXAI,不再作为独立公
阅读全文闻乐 发自 凹非寺量子位 | 公众号 QbitAI数学界尘封32年的拉姆齐数经典难题被打破!浙大校友王宜平借助自研AI框架ScaleAutoResearch-Ramsey,成功将拉姆齐数R(3,17)
阅读全文AdaMARP团队 投稿量子位 | 公众号 QbitAIAI能实现真正的沉浸式扮演了。大语言模型在角色扮演任务上进展迅速,但现有系统往往缺乏沉浸感和适应性:环境信息未被充分建模,场景与角色也多为静态,
阅读全文有没有发现,Markdown 文档,正在变得越来越长?一个文档的旅程想法诞生口喷 10 分钟文档膨胀300行500行1000行交接交给你了崩溃好长啊...收到!你要 review... 按
阅读全文并欢迎收看最新一期的 Hunt Good 周报!在本期内容你会看到:7 条新鲜资讯3 个有用工具1 个有趣案例3 个鲜明观点Hunt for News|先进头条🐎 爱马仕 Hemers Agent 全
阅读全文作者|张奚晨邮箱|zhangxichen@pingwest.comAI Agent 的产品形态正在改变。当Agent能处理的问题越来越复杂,新的问题也出现了,不同Agent怎么和另一个 Agent 协
阅读全文开始阅览由李榜主发起的:全球影响力榜单 AI产品榜(AICPB)第 35 期AI产品榜·网站榜(Web)(2026年04月榜)由 AI产品榜、36kr、硅星人 联名发布。1AI产品榜·网站榜2026年
阅读全文🔋多家车企辟谣「锁电被约谈」传言🚗李想回应理想 L9 四年换代:汽车不是手机,安全验证无法提速💰SK 海力士回应员工人均奖金 610 万元🔍曝苹果正在研发全息屏幕 iPhone🤖MiniMax 回应大
阅读全文本周 AI 快讯 | 1 分钟速览01 DeepSeek 融资直奔 500 亿,梁文锋自掏 200 亿,「V4.1」定档 6 月 :首轮外部融资目标最高 500 亿元,梁文锋个人出资占 40%;估值三
阅读全文