从「会表演」到「更会演」:KlingAvatar2.0让数字人拥有生动灵魂
机器之心发布还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化!近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告,这一次,数字人
阅读全文机器之心发布还记得几个月前那个能随着音乐节拍自然舞动的 KlingAvatar 数字人吗?现在,它迎来了史诗级进化!近日,快手可灵团队正式发布了 KlingAvatar2.0 技术报告,这一次,数字人
阅读全文机器之心发布目前,传统广电行业正面临一场深刻的生存危机。外部竞争压力持续加剧,不断挤压行业原有的发展空间:家庭智能语音设备渗透率已经突破 68%,短视频平台日均占用用户时长已经高达 2.8 小时,用户
阅读全文在迈向通用人工智能的道路上,我们一直在思考一个问题:现有的 Image Editing Agent,真的「懂」修图吗?大多数基于 LLM/VLM 的智能体,本质上更像是一个「盲目的指挥官」。它们能流利
阅读全文编辑|张倩在国内,懂技术 —— 尤其是 AI 技术的年轻人,真的不缺崭露头角的机会。前段时间,2025 年腾讯广告算法大赛结果揭晓,前 10 名队伍的全部成员都拿到了腾讯的录用意向书,冠军还拿到了 2
阅读全文机器之心发布为什么大模型厂商给了 128K 的上下文窗口,却在计费上让长文本显著更贵?为什么 Claude 能 “吞下整本书”,但官方示例往往只展示几千字的文档?为什么所有大模型厂商都在卷 “更长上下
阅读全文机器之心发布很多人可能并不了解,在贵州,IPTV 已经成为当下覆盖最广的家庭信息入口之一 —— 家庭覆盖率接近 89%,用户规模超过 1129.5 万户。然而把时间拨回八年前,贵州并不是一个 IPTV
阅读全文本文第一作者是 UTS 博士生杨向鹏,主要研究方向是视频生成和世界模型;第二作者是谢集,浙江大学的四年级本科生,主要研究方向统一多模态大模型和视频生成。通讯作者是吴强教授,主要研究方向为计算机视觉和模
阅读全文机器之心发布在 SIGGRAPH Asia 2025 期间,盛大集团(Shanda Group)旗下,盛大 AI 东京研究院(Shanda AI Research Tokyo)以展台活动、BoF 学术
阅读全文编辑|泽南、+0这就是摩尔线程最新 AI 计算卡 S5000,单卡跑满血 DeepSeek 大模型的成绩。每秒 1024 token 的流畅解码,超过 4000 token 的峰值吞吐,只需要搭载在通
阅读全文长期以来,具身智能系统主要依赖「感知 - 行动」的反应式回路,缺乏对未来的预测能力。而世界模型的引入,让智能体拥有了「想象」未来的能力。具身智能机器人通过世界模型想象抓杯子任务那么关键问题来了:世界模
阅读全文编辑|冷猫话不多说,先给大家看个视频。这流畅的游戏动作,简直堪比是技术流游戏玩家的实况画面。尤其是茶杯头的躲避跳跃踩灵魂一气呵成,让我们自愧不如。我要有这么快的反应和操作水准,玩丝之歌真不至于红温。最
阅读全文编辑|冷猫大模型的通用性和泛化性越来越强大了。虽说一些新模型,比如说「差评如潮」的 GPT-5.2,在专业任务和智能水平已经达到了非常出色的水平,但离我们所认知的 AGI 依旧十分遥远。不过,这也说明
阅读全文本研究的共同第一作者是来自于香港科技大学(广州)EnVision Research 的张鸿飞(研究助理)和陈康豪(博士研究生),两位研究者均师从陈颖聪教授。你的生成模型真的「懂几何」吗?还是只是在假装
阅读全文该工作由上海人工智能实验室钟志航团队联合四川大学、东京大学、上海交通大学、西北工业大学共同完成。在李飞飞团队 WorldLabs 推出 Marble、引爆「世界模型(World Model)」热潮之后
阅读全文机器之心编辑部「出门在外,身份都是自己给的」。最近两天,一款名为《青椒模拟器》的小游戏突然火了,好玩程度一整个把人震撼住了。游戏时间以学年为单位推进。一开始,每个人的起点都差不多:职称未定、资源有限、
阅读全文机器之心编辑部近年来,大语言模型的能力突飞猛进,但随之而来的却是愈发棘手的双重用途风险(dual-use risks)。当模型在海量公开互联网数据中学习时,它不仅掌握语言与推理能力,也不可避免地接触到
阅读全文随着扩散模型(Diffusion Models)的迭代演进,图像生成已经日臻成熟。然而,在 多实例图像生成(Multi-Instance Image Generation, MIG) 这一有着大量用户
阅读全文编辑|Panda、泽南大模型的竞争如火如荼,也有一群人正在研究如何降低门槛,让 AI 工具变得亲民。最近,在 AI 基础算力上重磅频出的华为,又亮出了一张王牌:昇腾的底层基础软件,CANN 全面开源开
阅读全文机器之心编辑部混合专家(MoE)模型已成为在不显著增加计算成本的情况下,实现语言模型规模化扩展的事实标准架构。近期 MoE 模型展现出明显的高专家粒度(更小的专家中间层维度)和高稀疏性(在专家总数增加
阅读全文本文的第一作者雍希贤是来中国人民大学的博士生,研究方向聚焦于 Humanoid AI,LLM Coginition & Reasoning。通讯作者为中国人民大学的周骁副教授以及腾讯天衍实验室的吴贤。
阅读全文编辑|Youli年初,围绕着 2025 年将是「大模型落地应用元年」「AI Agent 元年」的共识,业界开始了大规模持续探索。如今临近年尾,回过头来看,从高度标准化的客服对话、代码生成到流程化文档处
阅读全文机器之心发布具身智能通往通用性的征途,正被 “数据荒漠” 所阻隔。当模型在模拟器中刷出高分,却在现实复杂场景中频频 “炸机” 时,行业开始反思:我们喂给机器人的数据,是否真的包含人类操作的精髓?近日,
阅读全文在计算机图形学、三维视觉、虚拟人、XR 领域,SIGGRAPH 是毫无争议的 “天花板级会议”。 SIGGRAPH Asia 作为 SIGGRAPH 系列两大主会之一,每年只接收全球最顶尖研究团队的成
阅读全文编辑|+02025 年即将画上句号,回望这一年的视频生成领域,用「突飞猛进」来形容毫不为过,甚至可以说,视频内容创作的范式正在悄然发生改变。9 月,OpenAI 发布的 Sora 2 凭借「客串(Ca
阅读全文机器之心发布12 月 17 日,在香港举办的全球图形学领域备受瞩目的顶级学术盛会 SIGGRAPH Asia 2025 上,摩尔线程在 3D Gaussian Splatting Reconstruc
阅读全文如今,以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务,而DeepSearch 作为深度思考大模型的核心搜索器,在推理过程中通过迭代调用外部搜索工具,访问参数边界之外的最新、领
阅读全文机器之心发布如果把用户在互联网上留下的每一个足迹都看作一段记忆,那么现在的推荐系统大多患有 “短期健忘症”。受限于算力和存储,那些沉睡在数年前的点击、收藏与购买,往往被粗暴地截断或遗忘。即便被召回,它
阅读全文机器之心发布通用大模型(LLM)的狂飙突进,终于在医疗垂直领域的「最后一公里」撞上了硬墙。虽然 ChatGPT 在 USMLE(美国执业医师资格考试)中表现优异,但在面对需要「火眼金睛」和「毫厘必争」
阅读全文本文共同第一作者为西安交通大学硕士生常建磊和博士生梅若风。柯炜为西安交通大学副教授。论文通讯作者为西安交通大学教授许翔宇,其研究方向涵盖三维视觉、生成式 AI 与具身智能(个人主页:https://x
阅读全文