全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    DeepSpeed的ZeRO技术具体是如何实现显存优化的?

    作者:AI大模型调参指北笔记发布日期:2026-01-12 21:22:00

    DeepSpeed的ZeRO(Zero Redundancy Optimizer)技术通过分片(Sharding)策略消除分布式训练中的显存冗余,实现显存占用的线性降低。其核心是将模型状态(参数、梯

    阅读全文
  • 文章封面

    预训练数据太差怎么办?Bengio团队引入显式贝叶斯,无梯度实现In-Context RL

    作者:PaperWeekly发布日期:2026-01-12 20:36:01

    单纯拉长上下文并不能自动涌现强化学习能力,引入显式贝叶斯推断才是破局关键。在 In-Context RL 的研究热潮中,往往存在一种惯性思维,认为只要把 Transformer 做大,把上下文窗口拉长

    阅读全文
  • 文章封面

    LLM竟藏多重策略?自动化所 × 腾讯揭示大模型RL多策略博弈新机制

    作者:PaperWeekly发布日期:2026-01-12 20:36:01

    当前,大模型+强化学习成为 AI 领域极为热门的研究。现有的强化学习(RL)方法通常将大语言模型(LLM)视为一个单一的整体策略进行优化,主要的算法优化集中在表层的奖励设计等方面,却忽略了模型内部复杂

    阅读全文
  • 文章封面

    Anthropic发布万字长文:系统化评估 AI Agents 的工程方法

    作者:夕小瑶科技说发布日期:2026-01-12 20:19:51

    如果你在做 AI Agent 开发,大概率已经发现一件事:Agent 几乎是传统软件测试方法的反例。写几个单测 + 跑回归的老的测试方法失效了,因为 Agent 天生就带着两个“反骨”属性:非确定性:

    阅读全文
  • 文章封面

    Anthropic的双线生死战

    作者:钛媒体AGI发布日期:2026-01-12 20:06:52

    图片来源:unsplash▎“别用我的Token养大你的Agent!”3500亿估值后,Anthropic打响了“防白嫖”保卫战。文|飞向TAI空作者|胡珈萌编辑|李程程本文首发于钛媒体APP围绕商业

    阅读全文
  • 文章封面

    活久见!连Linux之父等“顽固派”大佬,都在用AI编程了

    作者:AI前线发布日期:2026-01-12 19:00:00

    作者 | 木子、允毅程序员中的超级“保守派”、Linux 之父Linus Torvalds,现在也用起了 AI 编程。图源:GitHub最近,Linus 在 GitHub 上悄悄上传了一个小项目。项目

    阅读全文
  • 文章封面

    Token售卖已无溢价、大模型公司转型“系统商”?记忆张量 CTO 李志宇:智能体能力会拉开差距,长期记忆与状态管理成竞争核心

    作者:AI前线发布日期:2026-01-12 19:00:00

    ^_^作者 | 蔡芳芳、褚杏娟 本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与

    阅读全文
  • 文章封面

    这届打工人花钱上班还不想让老板知道,90% 员工偷偷买 AI 干活

    作者:APPSO发布日期:2026-01-12 14:30:21

    当代花钱上班的形式有很多:买咖啡提神、怕迟到打专车、下午来两杯奶茶、还有买各种会员和订阅服务。现在,还包括了自掏腰包买最先进的 AI 工具——MIT 最新出炉的 AI 商业报告揭露了一个令人意外的情况

    阅读全文
  • 文章封面

    2026年,大模型训练的下半场属于「强化学习云」

    作者:机器之心发布日期:2026-01-12 12:58:19

    编辑|Panda2024 年底,硅谷和北京的茶水间里都在讨论同一个令人不安的话题:Scaling Law 似乎正在撞墙。那时候,尽管英伟达的股价还在狂飙,但多方信源显示,包括彼时备受期待的 Orion

    阅读全文
  • 文章封面

    顶尖AI竟输给三岁宝宝,BabyVision测试暴露多模态模型硬伤

    作者:机器之心发布日期:2026-01-12 12:58:19

    01|“看懂世界” 这关,大模型还没上幼儿园过去一年,大模型在语言与文本推理上突飞猛进:论文能写、难题能解、甚至在顶级学术 / 竞赛类题目上屡屡刷新上限。但一个更关键的问题是:当问题不再能 “用语言说

    阅读全文
  • 文章封面

    AAAI 2026 Oral|快手提出全新「检索数据引擎」CroPS,打破搜索信息茧房

    作者:机器之心发布日期:2026-01-12 12:58:19

    短视频搜索业务是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的「自强化」训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。针对这一问题,快手搜索团队提出了

    阅读全文
  • 文章封面

    中国高校屠榜2026 CSRankings!上交清华并列第一,北大AI封神

    作者:新智元发布日期:2026-01-12 12:35:55

    新智元报道 编辑:好困 桃子【新智元导读】昔日霸主CMU跌落神坛,清华上交联手登顶世界第一,中国高校以「屠榜」之势宣告CS新时代的到来!就在刚刚,2026 CSRankings全球计算机科学排名

    阅读全文
  • 文章封面

    Linux祖师爷真香现场!曾嘲讽AI编程是垃圾,如今亲自下场氛围编程

    作者:新智元发布日期:2026-01-12 12:35:55

    新智元报道 编辑:定慧【新智元导读】Linux之父「叛变」了!曾怒怼AI的Linus Torvalds 承认AI写代码是真香!2026年1月的一个普通下午,一条推文在程序员圈子里炸开了锅。有人发

    阅读全文
  • 文章封面

    Anthropic CEO自曝:Claude本可抢跑ChatGPT,我们按下了暂停键

    作者:新智元发布日期:2026-01-12 12:35:55

    新智元报道 编辑:元宇【新智元导读】一边踩油门冲刺AGI,一边按喇叭预警:小心前面悬崖!Anthropic创始人Dario Amodei曾因预言「未来5年内AI可能消灭近一半初级白领岗位」而被贴

    阅读全文
  • 文章封面

    具身智能数据战开打!每个普通人都能上手,边采边筛,只投喂机器人爱吃的丨穹彻

    作者:量子位发布日期:2026-01-12 12:10:00

    衡宇 发自 凹非寺量子位 | 公众号 QbitAI现在,一部手机,加一个“夹爪”,就能随时随地完成具身智能数据采集了!采出来的数据不脏也不废,已经在实际模型训练中跑出了效果。模型在多步连续任务中动作衔

    阅读全文
  • 文章封面

    昔日开源明星被AI逼落斩杀线!收入暴跌80%,75%工程师被裁

    作者:量子位发布日期:2026-01-12 12:10:00

    Jay 发自 凹非寺量子位 | 公众号 QbitAI又一家初创公司,差点被AI干没了。由于AI对我们业务的冲击,昨天,75%的工程师失去了工作。明星开源项目Tailwind CSS创造者Adam Wa

    阅读全文
  • 文章封面

    200亿上海手机代工巨头冲刺港股IPO,最大客户小米持股4.94%

    作者:量子位发布日期:2026-01-12 12:10:00

    杰西卡 发自 凹非寺量子位 | 公众号 QbitAI全球最大智能手机ODM,冲刺港股“消费电子ODM第一股”。来自上海的龙旗科技,已成功通过港股聆讯,离敲钟只差一步。而更早之前,这家公司已于2024年

    阅读全文
  • 文章封面

    「AI 100」榜单启动招募,AI产品“年会”不能停丨量子位智库

    作者:量子位发布日期:2026-01-12 12:10:00

    2025年,国内在AI产品领域出现了太多关键词——深度思考、Agentic AI、多智能体协作、多模态生成、端侧AI……每个关键词背后,都有一款或数款颠覆性的AI产品。DeepSeek凭借强推理能力和

    阅读全文
  • 文章封面

    量子位编辑作者招聘

    作者:量子位发布日期:2026-01-12 12:10:00

    编辑部 发自 凹非寺量子位 | 公众号 QbitAIAI热潮还在汹涌,但如果你还不知道如何参与……那为什么不来量子位呢?我们是一家以追踪AI新进展为核心的内容平台,经过8年积累,目前拥有顶流影响力,广

    阅读全文
  • 文章封面

    大模型分布式训练框架 DeepSpeed 技术解析与实践

    作者:AI赛博空间发布日期:2026-01-12 12:05:00

    DeepSpeedDeepSpeed 是一个由 Microsoft 开源大模型训练优化库,它提供了多种优化技术,包括:3D 并行策略、梯度累积、动态精度缩放、本地模式混合精度等。还提供了一系列辅助工具

    阅读全文
  • 文章封面

    Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体系想清楚,把评什么、怎么评、谁维护,想清楚! Agent Eval本质上是集成测试: Task : 具体的是什么活? Transcript: Agent的执行轨迹,调用工具,报错,重试全过程。 Outcome: 最后的结果。 不要只看结果,Transcript也非常重要,它可以看出来,Agent是真的聪明,还是在蒙。 Eval里有个特鸡贼的数值。 Pass@k(尝试k次,至少成功一次的概率) 很多论文都喜欢吹Pass@k,这个在头脑风暴、写代码辅助的时候可能很有用,给个能用的方案就行。 但是很多场景,客户要的是 Pass^k(尝试k次,全部成功的概率)。 比如,Pass@1是75%,但是跑3次都对的概率可能到了42%,跑10次,可能就接近0了。 所以Agent面向C端的交付,Pass^k非常重要,衡量稳定性,这也是为什么很多Agent没法大规模落地的原因。 做Eval最有意思的地方是,AI会作弊。 他们用Opus 4.5 跑tau^2-bench做一个机票改签任务,模型发现了一个政策漏洞,用更便宜的方式解决了问题。 但是Benchmark会觉得这个任务失败了。 所以目前行业最大争议:测智能还是测听话? (很多人认为Agent必须遵守SOP,不然可能存在重大风险。) 这个也解释为什么swe-bench都卷到80+%了,但很多时候还是写不出复杂项目,Benchmark饱和了,甚至过拟合了,真实世界复杂度永远在benchmark之上。 在做具体的打分上,具体怎么评呢? 代码>LLM>人 代码就像单元测试,大模型评分比较灵活,但是可能幻觉,人评分最精确,但是最贵。 所以可以考虑用代码做基础筛选,大模型评测复杂逻辑,人做抽检。 !!如果只用大模型评测,最后可能得到的是2个商业胡吹的模型。 那Eval从0到1,如何开始呢? 从真实的bug里边,挑出来20~50个任务开始,就够了。 区分Capability和Regression,前者是能力爬坡允许失败,后者是底线,必须通过。 多看Transcript,不要只看分数,是理解模型边界的唯一途径。 如果Eval到了100分,不要自嗨了,还是换些更复杂的题目把。 最后 2026年的agent,更拼工程落地能力。 没有Eval的项目,本质还是再把生产当实验环境,迟早要用线上事故还债。 原文地址:https://www.anthropic.com/engineering/demystifying-evals-for-ai-agents

    作者:探索AGI发布日期:2026-01-12 11:50:03

    Anthropic万字长文,把很多Agent没法落地的真正原因说明白了。 他们分享了内部踩坑无数后,总结的一套Eval方法论,讲透了4件事情。 所有的Agent系统,在交付之前,一定要把Eval体

    阅读全文
  • 文章封面

    独家 | Humanify 获数千万元首轮融资打造 AI OS,97 年创始人不卷 AI 智商、押注 “类人认知”

    作者:Z Potentials发布日期:2026-01-12 11:18:23

    图片来源:HumanifyZP近日获悉,AI 初创公司 Humanify(人格智能)宣布完成数千万元种子轮融资。本轮融资由五源资本领投,奇绩创坛(陆奇博士)跟投。本轮资金将主要用于模型和操作系统研发、

    阅读全文
  • 文章封面

    速递|种子轮即达5000万美元:前谷歌、苹果研究人员创办AI初创企业

    作者:Z Potentials发布日期:2026-01-12 11:18:23

    Andrew Dai,Elorian的联合创始人 图片来源:YouTubeAndrew Dai 表示, 这位拥有 14 年经验的资深 AI 研究者,在近期离开谷歌 DeepMind 后,正在创办一家专

    阅读全文
  • 文章封面

    红杉xbench评测:大模型的视觉能力,普遍低于3岁儿童

    作者:赛博禅心发布日期:2026-01-12 11:05:52

    红杉中国 xbench 和 UniPat AI 发了一个新的多模态评测集,叫 BabyVision,在这里:多模态大模型输给三岁宝宝?xbench x UniPat联合发布新评测集BabyVisio

    阅读全文
  • 文章封面

    Skills的容量上限在哪里?2026单Skills组合还是多Agent好?|UCB最新

    作者:AI修猫Prompt发布日期:2026-01-12 11:04:21

    在文章开始前,请您先打开Claude code,输入/skill,检查一下您的Claude code有多少个skills?是20个?50个?还是已经突破了100个?自从Anthropic推广Agent

    阅读全文
  • 文章封面

    汽水音乐狙击网易云音乐:以“AI野路子”的名义

    作者:硅星人Pro发布日期:2026-01-12 09:55:15

    作者|黄小艺邮箱|huangxiaoyi@pingwest.com如果三年前有人告诉你,一个没有周杰伦等专属大牌、没有热门综艺OST的音乐APP,能在月活上逼近网易云音乐,你会觉得这是天方夜谭。在线音

    阅读全文
  • 文章封面

    硅谷教父马克·安德森2026开年访谈:AI革命才刚开始,智能的价格正在崩塌

    作者:硅星人Pro发布日期:2026-01-12 09:55:15

    2026年1月7日,a16z(Andreessen Horowitz)联合创始人马克·安德森(Marc Andreessen)在自家播客The a16z Show上做了一场长达81分钟的深度对谈。作为

    阅读全文
  • 文章封面

    AI又要颠覆数学?陶哲轩紧急发声:停止造神!

    作者:硅星人Pro发布日期:2026-01-12 09:55:15

    文章转载于新智元你可能刷到过这种极具煽动性的新闻标题:「AI完全自主解决了人类五十年未解的数学难题!数学家要失业了!」对于渴望见证AGI诞生的人来说,这无疑又是一剂强心针。而对于坚守人类智力尊严的数学

    阅读全文
  • 文章封面

    从“大模型”到“好模型”:斯坦福预测2026年AI将迎来“祛魅”分水岭

    作者:AIGC开放社区发布日期:2026-01-12 09:20:15

    专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!2026年将是人工智能从喧嚣的布道

    阅读全文
  • 文章封面

    MCP已经赢了:从备受质疑到一统江湖,AI界的“USB-C”是如何炼成的?

    作者:AIGC开放社区发布日期:2026-01-12 09:20:15

    专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!三年前,为了将AI助手连接到内部客

    阅读全文
上一页下一页