关于多模态大模型Token压缩技术进展,看这一篇就够了
近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型
阅读全文近年来多模态大模型在视觉感知,长视频问答等方面涌现出了强劲的性能,但是这种跨模态融合也带来了巨大的计算成本。高分辨率图像和长视频会产生成千上万个视觉 token ,带来极高的显存占用和延迟,限制了模型
阅读全文编辑|杨文许多人梦想进入像 OpenAI 这样的前沿实验室从事研究工作,然而对于那些缺乏传统学术背景,比如没有发表过论文或知名导师推荐的人来说,这条路似乎格外艰难。最近,OpenAI 资深研究科学家
阅读全文编辑|杨文你的童年我的童年好像不一样。我的 17 岁,是坐在教室里苦哈哈地刷数学卷子;而这个名叫 Enrique Barschkis 的高中生,利用课间休息时间,成功解决了困扰数学家多年的埃尔德什第
阅读全文论文第一作者为清华大学博士、南洋理工大学博士后李寿杰,清华大学博士生吴同和人工智能硕士生徐建乐。论文通讯作者包括清华大学深圳国际研究生院副教授丁文伯,大连理工大学教授解兆谦,新加坡国立大学助理教授吴昌
阅读全文机器之心编辑部自从图灵奖得主 Yann LeCun 离开 Meta 创立 AMI Labs(Advanced Machine Intelligence) 以来,这家新公司便引发了业界的高度关注。本周,
阅读全文编辑|Panda刚刚,OpenAI CEO 山姆・奥特曼发了一条推文:「从下周开始的接下来一个月,我们将会发布很多与 Codex 相关的激动人心的东西。」他尤其强调了网络安全这个主题。当然,和奥特曼的
阅读全文从模型重编程(Model Reprogramming),到参数高效微调(PEFT),再到当下大模型时代的 Prompt Tuning ,Prompt Instruction 和 In-context
阅读全文编辑|杜伟、泽南今天一早,OpenAI CEO 奥特曼就发推晒收入,「仅我们的 API 业务而言,上个月就增加了超过 10 亿美元的 ARR(年度经常性收入)。」他继续说到,大多数人只看到了 Chat
阅读全文编辑|Panda、泽南前两天,Node.js 之父 Ryan Dahl 在 X 上断言:「人类编写代码的时代已经结束了。」该帖引发广泛讨论,浏览量更是已经超过了 700 万。而现在,我们迎来了一个对这
阅读全文在 LLM 时代,思维链( CoT)已成为解锁模型复杂推理能力的关键钥匙。然而,CoT 的冗长问题一直困扰着研究者——中间推理步骤和解码操作带来了巨大的计算开销和显存占用,严重制约了模型的推理效率。为
阅读全文编辑|泽南在医疗健康这一容错率极低的领域,大模型不再凭空「想象」,而是已变得严谨可靠、能引会搜:百川刚刚推出的新模型,实现了一个里程碑式的突破。本周四,百川智能正式发布新一代大模型 Baichuan-
阅读全文编辑|陈陈、冷猫刘壮带队的无需归一化 Transformer 又有新的版本了。一直以来,在 Transformer 架构里,LayerNorm 几乎是标配,但它也有明显问题:比如计算和访存成本高,尤其
阅读全文机器之心编辑部近日,有消息传出,苹果正在研发一款由 AI 驱动的可穿戴「胸针」(Pin)设备,不过目前该设备仍处于早期研发阶段,最快可能也要在 2027 年才能面世。据知情人透露,该设备体积与 Air
阅读全文编辑|冷猫谷歌 2017 年提出的 Transformer 架构事实上已经基本垄断了大模型。不采用 Transformer 架构的大模型已经是少之又少,而采用非 Transformer 架构,还能与主
阅读全文近日,中国科学技术大学(USTC)联合新疆师范大学、中关村人工智能研究院、香港理工大学,在数据驱动的多功能双连通多尺度结构逆向设计领域取得重要突破。相关成果于 2026 年 1 月 8 日以 “Dat
阅读全文编辑|泽南、杜伟在语音大模型赛道上,GPT-4o、Gemini 的能力遥遥领先。近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Di
阅读全文编辑|Panda一根 256 GB 内存条标价 5000 美元?这个价格已经轻松超过了英伟达顶配显卡 RTX 5090 的市场溢价。此推文引发了广泛讨论,已收获超 200 万浏览,图源:X@Yuche
阅读全文在迈向通用人工智能(AGI)的征途中,多模态大语言模型(MLLMs)虽然在视觉理解与文本生成上展现了惊人的能力,却始终面临一道难以逾越的鸿沟:如何在复杂的数学与几何推理中,克服固有的幻觉与逻辑断层?
阅读全文机器之心编译元旦期间,DeepSeek 发布的 mHC 震撼了整个 AI 社区。简单来说,DeepSeek 提出的 mHC 通过将传统 Transformer 的单一残差流扩展为多流并行架构,并利用
阅读全文机器之心编辑部开始前,温馨提醒一下各位投稿 ICML 2026 的小伙伴们,投稿已于 1 月 8 日开放,也请大家注意投稿截止时间:摘要提交截止日期:2026 年 1 月 23 日。全文提交截止日期:
阅读全文想象这样一个日常画面:你吩咐家用机器人「烧壶开水」,它却当场卡壳——水壶在哪?该接自来水还是过滤水?先插电还是先按开关?水开了又该如何判断?这些对人类而言像呼吸一样自然的家务,对过去的机器人却是大大的
阅读全文机器之心编译软件行业正站在一个颇为微妙的拐点上。AI 已经从自动补全代码,演进为能够自主执行开发任务的智能体。在这一变化之下,初级开发者和高级开发者正同时被推入各自不同、却同样棘手的困境之中。对初级开
阅读全文机器之心编辑部我们常问:AGI 什么时候到来?你有没有想过,可能它已经来了。最近,红杉资本合伙人 Pat Grady、Sonya Huang 联合发表了一篇博客,指出 AGI 已经到来,就在此刻。在他
阅读全文视频世界模型领域又迎来了新的突破!复旦大学与腾讯 PCG ARC Lab 等机构的研究者们提出了 VerseCrafter,这是一个通过显式 4D 几何控制(4D Geometric Control)
阅读全文编辑|泽南、杨文这一天终于还是来了。周六凌晨,OpenAI 的一则公告引起轩然大波:他们计划在 ChatGPT 里加广告了。对此,网友们感到很受伤。有人表示,现在大家用大模型的一个重要原因就是能够避免
阅读全文随着人工智能在代码以及图片生成方面日益成熟,越来越多的研究人员也开始关注 AI 模型在游戏领域中的表现。实际上,游戏在 AI 的发展早期就已经是一个重要的研究方向,许多前期研究聚焦在 Atari,星际
阅读全文从 GPT-4o 开启全能(Omni)交互时代至今,Speech LLM 虽然在拟人化和低延迟上取得了长足进步,但面临一个令人困扰的现象:当大语言模型(LLM)被赋予 “听觉” 后,它的智商下降了。即
阅读全文编辑|Panda、杨文临近春节,各家 AI 厂商进入冲刺阶段,纷纷亮出最新大模型成果。1 月 15 日,美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601。这是一款强大
阅读全文编辑|张倩继奥特曼在 OpenAI 的「宫斗」大戏后,他的老搭档 Mira 这周的经历也够拍一部电视剧了。昨天,我们报道了前 OpenAI CTO Mira Murati 创办的 Thinking M
阅读全文