视觉强≠能干活!清北普林斯顿等开源WorldArena,世界模型评测被颠覆
机器之心发布当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」?2026 年 2 月 13 日,一则来自具身智能前沿的重磅消息引发学界与产业界震动:由清华大学、北京大学、香港大学、普林斯
阅读全文机器之心发布当世界模型生成的视频足以「以假乱真」,为何机器人依然「有眼无脑」?2026 年 2 月 13 日,一则来自具身智能前沿的重磅消息引发学界与产业界震动:由清华大学、北京大学、香港大学、普林斯
阅读全文长期以来,开源多模态模型在复杂推理任务上,始终与 GPT-4o、Gemini 等顶尖闭源模型存在一道难以逾越的鸿沟。社区开发者们逐渐意识到,核心痛点或许不在于模型架构的精进或者模型参数的规模。真正的瓶
阅读全文编辑|杜伟2026 马年注定迎来一个「AI 味」最浓的春节。一个与众不同的玩家进入我们的视线,它正是国内最有活人感的生活和消费社区 —— 小红书,卷起了「感知力」。小红书围绕着发布、评论、搜索、社交等
阅读全文编辑|冷猫2026 开年至今,人工智能圈子最火的是一只小龙虾 Clawdbot 。从 Clawdbot 到 OpenClaw,历经两次改名都无法阻挡大家对它的热情,一种全球性的集体渴望正在浮现 ——
阅读全文过去一年,大模型写代码的能力几乎以肉眼可见的速度提升。从简单脚本到完整功能模块,GPT、Claude、DeepSeek 等模型已经能够在几秒钟内生成看起来相当 “专业” 的代码。这种能力的提升,让很多
阅读全文编辑 | 泽南、杨文春节还没到,「过年的气氛」已经渗入科技圈每个人的毛孔。单说 AI 大模型这一块,刚刚发布的有 kimi 2.5 和 Step 3.5 Flash,即将发布的据说还有 DeepSee
阅读全文机器之心编辑部马斯克于 2023 年与另外 11 位联合创始人共同创办的 xAI,如今已有 6 人离开。最新消息,xAI 联合创始人 Jimmy Ba 周二表示,他已经离开了这家 AI 初创公司。Ji
阅读全文当一段语音不仅需要 “像某个人”、“准确地读出每个字”, 还需要在不同内容中自然切换说话方式, 在几十分钟的叙述中持续稳定, 在对话、角色、实时交互等不同形态下都能直接使用 —— 单一的 TTS 模型
阅读全文编辑|张倩2026 年,那么多机器人上春晚,能给大家表演个包饺子吗?相信这是很多人会好奇的一个问题。但根据最近的彩排报道,这个可能性不大,机器人更有可能被设计为托着托盘呈上饺子。其实业内人士都知道,如
阅读全文机器之心编辑部2026 年刚拉开序幕,大模型(LLM)领域的研究者们似乎达成了一种默契。当你翻开最近 arXiv 上最受关注的几篇论文,会发现一个高频出现的词汇:Self-Distillation。近
阅读全文当物体在滚动、滑动、被撞飞,机器人还在执行几百毫秒前的动作预测。对动态世界而言,这种延迟,往往意味着失败。在过去几年中,Vision-Language-Action(VLA)模型迅速成为机器人领域的焦
阅读全文编辑|Youli还记得童年的那个愿望吗?随着《数码宝贝》进化曲的响起,屏幕前的你我或许都曾幻想过:要是那只从数码蛋中破壳而出的滚球兽,真的可以从电视屏幕那端跳出来,就好了。彼时,我们只能将这种天马行空
阅读全文编辑|冷猫驱动具身智能进入通用领域最大的问题在哪里?我们认为,核心问题在于「跨具身(cross-embodiment)迁移」。当然,具身智能执行通用复杂任务的核心是一个完善的世界模型。但是,大多世界模
阅读全文在大模型驱动的 Agentic Search 日益常态化的背景下,真实环境中智能体 “如何发查询、如何改写、是否真正用上检索信息” 一直缺乏系统刻画与分析。CMU 团队基于可重复检索平台 DeepRe
阅读全文机器之心发布在 GenAI 带动的 “生成式科学智能(Generative Science)” 的新浪潮中,生物基石模型始终是广受关注的热门领域;自然界的生命语言(序列、结构)与人类符号语言呈现类似的
阅读全文编辑 | 冷猫训练一个生成模型是很复杂的一件事儿。从底层逻辑上来看,生成模型是一个逐步拟合的过程。与常见的判别类模型不同,判别类模型通常关注的是将单个样本映射到对应标签,而生成模型则关注从一个分布映射
阅读全文在企业级系统中,数据团队普遍面临一个困境:模型迭代飞速,但数据准备的「老旧管道」却愈发沉重。清洗、对齐、标注…… 这些工作依然深陷于人工规则与专家经验的泥潭。您的团队是否也为此困扰?数据格式五花八门,
阅读全文写这个的时候,其实我脑子里第一反应是好多年以前某位领导问过我,transformer 的下一跳是什么?我当时的回复是 transformer 是一个量变到质变长期积累得到的范式,很早期的视觉里面也有类
阅读全文机器之心编辑部在时隔 14 年之后,有着「统计学诺贝尔奖」之称的考普斯奖(COPSS Presidents' Award),又一次迎来了华人得主。2026 年考普斯奖颁给了「北大校友、现宾夕法尼亚大学
阅读全文编辑|Panda一直以来,神经网络的激活函数就像是 AI 引擎中的火花塞。从早期的 Sigmoid、Tanh,到后来统治业界的 ReLU,再到近年来的 GELU 和 Swish,每一次激活函数的演进都
阅读全文近年来,视频生成(Video Generation)与世界模型(World Models)已跃升为人工智能领域最炙手可热的焦点。从 Sora 到可灵(Kling),视频生成模型在运动连续性、物体交互与
阅读全文编辑|杨文、Panda最近,OpenClaw 火得一塌糊涂。短短几天,这个顶着红色龙虾 Logo 的开源 AI 助理 OpenClaw,就在 GitHub 上斩获超 16 万 star 量。它就像一个
阅读全文编辑|杨文高端商战,往往就是这么朴实无华。OpenAI 上个月才宣布要在 ChatGPT 里加广告,Anthropic 就挑了个超级碗的时间节点,播出嘲讽 ChatGPT 的广告。「意有所指」的超级碗
阅读全文随着 AI 智能体(Agent)能力日益强大,其自主行为带来的安全风险也愈发复杂。现有安全工具往往只能给出「安全 / 不安全」的简单判断,无法告知我们风险的根源。为此,上海人工智能实验室正式开源 Ag
阅读全文编辑|泽南大模型的革命行将结束,即将开启的会是物理 AI 时代?上周,图灵奖得主、深度学习先驱 Yann LeCun 对通用人工智能(AGI)发表了自己的最新观点。他认为语言并不等同于智能,预测文本并
阅读全文编辑|SIA你负责写方法,AI负责画 Figure。 科研打工人,终于等来「画图解放日」。还在为论文里的方法框图熬夜画 PPT、拉箭头、对齐字体吗?一张 Figure 2,动辄几个小时,严重的甚至能耗
阅读全文本文来自复旦大学和阿里巴巴未来生活实验室,已中稿 ICLR 2026。目前的视觉推理方法衍生出了多种思考模式,主要有和 LLM 一致的纯文本思考模式以及更加贴近图片的用图思考。两种推理模式在不同的领域
阅读全文机器之心编辑部你有没有想过一个问题:为什么和 AI 对话,总觉得少了点「人味儿」。不是它回答得不够准确,也不是它理解不了你的意思,而是每次交互都很机械。你问一句,等它答完,然后突然画面一转,对不起,它
阅读全文编辑 | 杜伟、泽南又一位大佬准备对现有 AI 技术范式开刀了。今天凌晨,英伟达高级研究科学家、机器人团队负责人 Jim Fan(范麟熙)发布文章《第二代预训练范式》,引发了机器学习社区的讨论。Jim
阅读全文近日,美团推出全新多模态统一大模型方案 STAR(STacked AutoRegressive Scheme for Unified Multimodal Learning),凭借创新的 "堆叠自回归
阅读全文