AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA
随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令
阅读全文随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令
阅读全文编辑|吴昕、Youli先行一步Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件,正在被逐步揭开。供应链信息显示,这款产品并没有选择屏幕,而更像是一种可穿戴设备:体积接近 iPod
阅读全文机器之心报道2026 新年第三天,Claude Code 创建者、负责人 Boris Cherny 开展「线上教学」,亲自示范他自己使用这个 AI 编程工具的工作流。他表示,自己的配置可能出乎意料地「
阅读全文VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自动驾驶设计的,在自动驾驶场景中都具
阅读全文机器之心编辑部长久以来,代码世界的大门似乎只对少数掌握秘术的人敞开。我们被告知:你必须先理解内存、掌握语法、忍受枯燥的文档,才配谈论创造。现在,随着大模型的发展,编程不再是一场苦修,而是一场大型即时策
阅读全文编辑|Panda长期以来,AI 领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海
阅读全文腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型
阅读全文机器之心编辑部在 80、90 后的成长记忆里,「辍学创业,成为亿万富翁」这类故事流传甚广。理性分析后都知道,这里面有幸存者偏差,也有个体差异 —— 盖茨、扎克伯格都是哈佛级别,随时能回去拿学位;乔布斯
阅读全文随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而是学会了主动定位与思考。然而
阅读全文编辑|冷猫众所周知,「超级智能」是 Meta 持续不变的宏大愿景。为了尽早达到构建超级智能的目标,扎克伯格在这一年里可谓是大刀阔斧,搞得 Meta 研究部门鸡飞狗跳。前 Meta FAIR 领军人物
阅读全文机器之心编辑部AI 大新闻,一桩接一桩。早上刚传来 Manus 被 Meta 收购的消息,很快,围绕「全球大模型第一股」的竞速,也传来靴子落地的声响。12 月 30 日,北京智谱华章科技股份有限公司(
阅读全文机器之心发布© THE END 转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com
阅读全文可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCard
阅读全文编辑|吴昕第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和
阅读全文编辑|泽南近日,刚刚 IPO 的国产 GPU 公司沐曦股份,完成了自上市后的首个重大技术发布。该公司旗下的 MXMACA 软件栈(MACA)正式发布了全新版本 3.3.0.X,沐曦发布了一份 23 页
阅读全文作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?你大概率也遇到过以下困境之一:虚假的繁荣: 模型在 “大海捞针” (Needle-
阅读全文文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然
阅读全文编辑|张倩现年 69 岁的传奇程序员、「Go 语言之父」Rob Pike,这几天被一封邮件惹毛了,接连几个「F**k」爆起粗口。邮件的大致内容是向他这种技术先驱表达感谢,原文是这么写的:尊敬的 Pik
阅读全文编辑|杨文前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。而去年在「we,robot」活动首次亮相的特斯拉 Robovan 视频,也被网友
阅读全文近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解
阅读全文编辑|泽南、杨文年末的假期,正是总结思考的时候。不过对于程序员来说,仔细这么一想可能会感觉有点不对劲。刚刚,Andrej Karpathy 在 X 上发的一条帖子,引发数万程序员和从业者强烈共鸣与热议
阅读全文近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-
阅读全文第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年
阅读全文编辑|杜伟在 2025 年的最后时刻,一个全新视频生成加速框架的开源宣告了:「等待数分钟才能生成一个视频」的时代已经终结!这个框架正是清华大学 TSAIL 团队与生数科技联合发布的 TurboDiff
阅读全文机器之心发布在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案 —— 正确的参
阅读全文近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。论文:MeViS: A Multi-Mo
阅读全文编辑|冷猫在外界感知中,腾讯在 AI 领域的动作更多被贴上稳健甚至克制的标签。但在 2025 年的尾声,从人才引进到产品迭代再到组织变革,一系列密集信号的发出,也侧面表明这个巨头正在按下加速键。12
阅读全文编辑 | 杜伟、陈陈什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI
阅读全文来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。本研究联合了美团、上海交通大
阅读全文编辑|张倩、陈陈没想到,2025 年的最后一个月,AI 硬件圈竟然这么热闹。月初,豆包 AI 手机上线即刷屏。大家发现,原来让 AI 接管手机之后,那么多事情都可以自动化。但没想到,上线第二天,一些
阅读全文