南大团队直击大模型高分神话:人类90分,最强模型仅49分
新智元报道 编辑:YHluck【新智元导读】现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在Google Gemini评测团队邀约下推出视频理解新基准Video-MM
阅读全文新智元报道 编辑:YHluck【新智元导读】现有大模型评测分数日趋饱和,但与真实体验差距显著。南京大学傅朝友团队牵头,在Google Gemini评测团队邀约下推出视频理解新基准Video-MM
阅读全文新智元报道 编辑:倾倾【新智元导读】Google DeepMind调查了一万个人,结果让整个AI安全评估体系汗颜:AI做了三倍多的「坏事」,但造成的实际伤害几乎一样。这意味着,我们现在用来证明A
阅读全文新智元报道 编辑:LRST【新智元导读】当前具身智能的VLA(Vision-Language-Action)赛道正陷入典型的「碎片化」泥潭:不同团队采用异构的动作解码范式、强耦合的数据管线、互不
阅读全文新智元报道 编辑:犀牛【新智元导读】10万小时人类数据、不搞对齐只靠规模,灵初Psi-R2登顶MolmoSpaces。具身智能领域最近有一个心照不宣的焦虑:真机遥操作数据这条路,可能走不下去了。
阅读全文新智元报道 编辑:艾伦【新智元导读】OpenAI 工程师因严重精神透支辞职回国,撕开了硅谷 AI 圈残酷的内卷真相。在「0-0-2」极限压榨与道德焦虑双重折磨下,xAI、OpenAI 等巨头的核
阅读全文新智元报道 编辑:LRST【新智元导读】开源框架Deep Researcher Agent帮你全天候自动跑深度学习实验,节省大量重复劳动。它通过自主循环完成想方案、执行、监控与反思,仅需每天五毛
阅读全文新智元报道 编辑:KingHZ 犀牛【新智元导读】当多数图像AI还停留在「会生成、不会懂空间」的阶段,京东开源JoyAI-Image-Edit,把图像编辑从平面修图推向空间智能,也让外界第一次看
阅读全文新智元报道 编辑:KingHZ【新智元导读】世界正在剧变。AI不再只是工具,它正在变成一面镜子——照出人类最深处的恐惧与渴望。而镜子里,站着一个穿黑袍的神父,和一个名叫Claude的AI。深夜,
阅读全文新智元报道 编辑:LRST【新智元导读】南洋理工、北航与合工大联合提出CARE Transformer,以非对称解耦方式并行建模局部细节与全局依赖,通过通道拆分与双交互机制,显著降低线性注意力计
阅读全文新智元报道 编辑:桃子 好困【新智元导读】太震撼了!一位北大文科博士,带着17个Agent,爆肝49天30万行代码,手搓了一个「AI开放世界」Elseland。当技术被AI飞轮碾碎,一人就是一个
阅读全文新智元报道 编辑:桃子 好困【新智元导读】Anthropic深夜发布Claude「顾问策略」,让Opus 4.6退居幕后当军师,Sonnet/Haiku当苦力。实测性能翻倍,成本暴降85%,全网
阅读全文新智元报道 编辑:LRST【新智元导读】多模态大推理模型的幻觉,很多时候并非「没看见」,而是在最不确定的推理阶段想偏了。最新研究发现,模型在生成because、however、wait等tran
阅读全文新智元报道 编辑:Aeneas 犀牛【新智元导读】国产AI营销持续刷屏行业!原本2周策划,现在十几分钟落地,从内容爆款到精准投放全流程智能搞定。营销人别再拍脑袋,再不跟上这个浪潮,669亿AI营
阅读全文新智元报道 编辑:元宇【新智元导读】黄仁勋用「五层蛋糕」讲清了AI全栈生态的分层逻辑,易鑫则把它翻译成汽车金融的落地打法:从算力、模型到Agent落地,解决的全是汽车金融最难的活。近期,英伟达C
阅读全文新智元报道 编辑:YHluck【新智元导读】RL之后,大模型为什么更容易「越训越单一」?面对五花八门的改进思路,也许答案并不复杂:先试着改一改KL项。近年来,基于可验证奖励的强化学习(Reinf
阅读全文新智元报道 编辑:好困 Aeneas【新智元导读】面壁智能2B小模型VoxCPM 2惊艳开源,一众外国网友疯狂了!30种语言与9大方言它是信手拈来,复刻的贺炜激昂解说与徐志胜脱口秀,相似度简直直
阅读全文新智元报道 编辑:元宇【新智元导读】谷歌Deep Think横扫亚欧多语种竞赛,AI科研工具的语言壁垒正在被拆掉,数学与科学发现进入AI驱动新时代。「Deep Think」在所有竞赛中都击败/媲
阅读全文新智元报道 编辑:LRST【新智元导读】大模型正在批量生成「看起来很像真的」学术论述,但这些论述背后的引用,真的成立吗?更关键的是:当被引论文被付费墙锁住、原文根本读不到时,自动化核验是否就注定
阅读全文新智元报道 编辑:艾伦 Aeneas【新智元导读】当 AI 告别「陪聊」,进化为替你干活的「数字员工」,普通人的红利已然降临。从极客专属到大众生产力,这场 AI 演进将如何彻底重塑我们的工作方式
阅读全文新智元报道 编辑:好困 桃子【新智元导读】太突然了!Anthropic深夜发布封杀令,切断OpenClaw免费接口。龙虾之父霸气回怼,直接上线2026.4.5王炸更新:AI原生支持视频生成,还装
阅读全文新智元报道 编辑:LRST【新智元导读】研究者用特制雨伞干扰无人机视觉系统,让其误判目标在远去,从而失控俯冲。FlyTrap攻击无需信号干扰,仅靠物理图案就能欺骗多款商用无人机,实现静默捕获或击
阅读全文新智元报道 编辑:Aeneas 好困【新智元导读】这边,是狂烧6000亿、高管内讧的OpenAI;那边,是收入暴涨到190亿美元,服务器却扛不住了的Anthropic。IPO面前,硅谷两大巨头正
阅读全文新智元报道 编辑:元宇【新智元导读】过去Agent比谁更会干活,现在可能要比谁更会变强。AI已经学会「左脚踩右脚上天」了?Meta的一项最新研究表明:AI已经开始碰自己的「进化引擎」了。华人学者
阅读全文新智元报道 编辑:LRST【新智元导读】从「会写Tcl」,到「能真正推进设计优化流程」,大模型正第一次以Agent形态进入真实EDA工具链。大模型正在快速进入工程研发现场。但在 EDA(电子设计
阅读全文新智元报道 编辑:YHluck【新智元导读】AI游戏迎来大结局?GDC与GTC双会场惊现黑马LinearGame!旗下平台Yoroll首创将世界模型与互动视频融合,一句话即可生成3D可玩空间。打
阅读全文新智元报道 编辑:倾倾【新智元导读】OpenAI根本没有护城河!顶级分析师Benedict Evans判断:大模型本质上是「大宗商品」,OpenAI极有可能重演Netscape的悲剧。80%的用
阅读全文新智元报道 编辑:LRST【新智元导读】当AI智能体从「被动预测工具」蜕变为「主动决策实体」,其安全风险也在经历一场前所未有的质变。当AI智能体被部署进医疗诊断、金融交易、工业控制等高风险场景,
阅读全文新智元报道 编辑:编辑部【新智元导读】就在刚刚,全球AI巨头Anthropic正式发出通牒:从美国东部时间4月4日 15:00起,强行将OpenClaw踢出Claude订阅服务的白名单!全球开发
阅读全文新智元报道 编辑:KingHZ【新智元导读】越像人的AI,越要被工程化地「去人性」。微软AI CEO Suleyman提出争议设计准则:非感知信号、身份水印、法律禁区。否则,镜子套镜子,我们将永
阅读全文新智元报道 编辑:倾倾【新智元导读】Chatbot时代结束了!Google将AI植入Android底层,让它变成一个主动规划一切的系统管家。每个月$19.99+你的全部数据,就能获得一个全天候2
阅读全文