全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    AAAI 2026 Oral|InfiGUI-G1模型来了,刷新GUI Grounding SOTA

    作者:机器之心发布日期:2026-01-05 14:06:18

    随着多模态大语言模型(MLLM)的飞速发展,能够像人类一样通过视觉输入操作图形用户界面(GUI)的智能体(Agent)正逐渐成为现实。然而,在通往通用计算机控制的道路上,如何让模型精准地将自然语言指令

    阅读全文
  • 文章封面

    从「被动」到「主动」,为什么给耳机装上「眼睛」后AI范式变了?

    作者:机器之心发布日期:2026-01-04 13:40:10

    编辑|吴昕、Youli先行一步Sam Altman 与 Jony Ive 联手探索的无屏 AI 硬件,正在被逐步揭开。供应链信息显示,这款产品并没有选择屏幕,而更像是一种可穿戴设备:体积接近 iPod

    阅读全文
  • 文章封面

    500万人在线围观,Claude Code创建者的13条独家实战秘籍爆火

    作者:机器之心发布日期:2026-01-04 13:40:10

    机器之心报道2026 新年第三天,Claude Code 创建者、负责人 Boris Cherny 开展「线上教学」,亲自示范他自己使用这个 AI 编程工具的工作流。他表示,自己的配置可能出乎意料地「

    阅读全文
  • 文章封面

    AAAI 2026 | 小鹏联合北大,专为VLA模型定制视觉token剪枝方法,让端到端自动驾驶更高效

    作者:机器之心发布日期:2026-01-04 13:40:10

    VLA 模型正被越来越多地应用于端到端自动驾驶系统中。然而,VLA 模型中冗长的视觉 token 极大地增加了计算成本。但现有的视觉 token 剪枝方法都不是专为自动驾驶设计的,在自动驾驶场景中都具

    阅读全文
  • 文章封面

    4个月烧掉30亿Token,这位「菜鸟」程序员做出50多个产品,360万人围观

    作者:机器之心发布日期:2026-01-03 12:11:05

    机器之心编辑部长久以来,代码世界的大门似乎只对少数掌握秘术的人敞开。我们被告知:你必须先理解内存、掌握语法、忍受枯燥的文档,才配谈论创造。现在,随着大模型的发展,编程不再是一场苦修,而是一场大型即时策

    阅读全文
  • 文章封面

    LeCun在Meta还有论文:JEPA物理规划的「终极指南」

    作者:机器之心发布日期:2026-01-03 12:11:05

    编辑|Panda长期以来,AI 领域一直怀揣着一个宏大的梦想:创造出能够像人类一样直观理解物理世界,并在从未见过的任务和环境中游刃有余的智能体。传统的强化学习方法往往比较笨拙,需要通过无数次的试错和海

    阅读全文
  • 文章封面

    微信炼出扩散语言模型,实现vLLM部署AR模型3倍加速,低熵场景超10倍

    作者:机器之心发布日期:2026-01-03 12:11:05

    腾讯微信 AI 团队提出 WeDLM(WeChat Diffusion Language Model),通过在标准因果注意力下实现扩散式解码,在数学推理等任务上实现相比 vLLM 部署的 AR 模型

    阅读全文
  • 文章封面

    「辍学创业」的风再次席卷硅谷,但真正的变量从来不是学位

    作者:机器之心发布日期:2026-01-02 11:09:49

    机器之心编辑部在 80、90 后的成长记忆里,「辍学创业,成为亿万富翁」这类故事流传甚广。理性分析后都知道,这里面有幸存者偏差,也有个体差异 —— 盖茨、扎克伯格都是哈佛级别,随时能回去拿学位;乔布斯

    阅读全文
  • 文章封面

    让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局

    作者:机器之心发布日期:2026-01-02 11:09:49

    随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推理任务上取得了革命性突破 —— 模型不再是被动接收视觉信息,而是学会了主动定位与思考。然而

    阅读全文
  • 文章封面

    Meta重磅:让智能体摆脱人类知识的瓶颈,通往自主AI的SSR级研究

    作者:机器之心发布日期:2026-01-02 11:09:49

    编辑|冷猫众所周知,「超级智能」是 Meta 持续不变的宏大愿景。为了尽早达到构建超级智能的目标,扎克伯格在这一年里可谓是大刀阔斧,搞得 Meta 研究部门鸡飞狗跳。前 Meta FAIR 领军人物

    阅读全文
  • 文章封面

    Manus被收购,智谱也定了8天后上市

    作者:机器之心发布日期:2025-12-30 12:00:03

    机器之心编辑部AI 大新闻,一桩接一桩。早上刚传来 Manus 被 Meta 收购的消息,很快,围绕「全球大模型第一股」的竞速,也传来靴子落地的声响。12 月 30 日,北京智谱华章科技股份有限公司(

    阅读全文
  • 文章封面

    招生 | 港科大(广州)数据科学与分析学域2026-27博士项目申请开放!

    作者:机器之心发布日期:2025-12-30 12:00:03

    机器之心发布© THE END 转载请联系本公众号获得授权投稿或寻求报道:liyazhou@jiqizhixin.com

    阅读全文
  • 文章封面

    清华朱军团队Nature Machine Intelligence:多模态扩散模型实现心血管信号实时全面监测

    作者:机器之心发布日期:2025-12-30 12:00:03

    可穿戴健康监测信号由于监测难度高、观测噪声大、易受干扰,高质量的心血管信号仍难以长期便捷获取,这是智能健康监测系统始终面临的现实困境。近日,清华朱军等团队提出了一种统一的多模态生成框架 UniCard

    阅读全文
  • 文章封面

    上线不到一年,收徒百万,首个真人级AI导师技术底牌首次曝光

    作者:机器之心发布日期:2025-12-29 12:41:10

    编辑|吴昕第一次见到「爱学」前,王佳佳(化名)害怕和老师互动。这个来自安徽阜阳的初三女生,性格内向,在课堂上几乎从不举手。题不会,不敢问,宁愿空着;一被老师点名,就紧张到大脑一片空白。久而久之,数学和

    阅读全文
  • 文章封面

    深度拆解沐曦MXMACA软件栈功能,算力自主+生态兼容,破解国产GPU落地难题

    作者:机器之心发布日期:2025-12-29 12:41:10

    编辑|泽南近日,刚刚 IPO 的国产 GPU 公司沐曦股份,完成了自上市后的首个重大技术发布。该公司旗下的 MXMACA 软件栈(MACA)正式发布了全新版本 3.3.0.X,沐曦发布了一份 23 页

    阅读全文
  • 文章封面

    QwenLong-L1.5发布:一套配方,三大法宝,让30B MoE模型长文本推理能力媲美GPT-5

    作者:机器之心发布日期:2025-12-29 12:41:10

    作为大模型从业者或研究员的你,是否也曾为一个模型的 “长文本能力” 而兴奋,却在实际应用中发现它并没有想象中那么智能?你大概率也遇到过以下困境之一:虚假的繁荣: 模型在 “大海捞针” (Needle-

    阅读全文
  • 文章封面

    AAAI 2026 Oral|LENS:基于统一强化推理的分割大模型

    作者:机器之心发布日期:2025-12-29 12:41:10

    文本提示图像分割(Text-prompted image segmentation)是实现精细化视觉理解的关键技术,在人机交互、具身智能及机器人等前沿领域具有重大的战略意义。这项技术使机器能够根据自然

    阅读全文
  • 文章封面

    一封AI邮件,竟让Go语言之父爆起粗口

    作者:机器之心发布日期:2025-12-28 12:41:59

    编辑|张倩现年 69 岁的传奇程序员、「Go 语言之父」Rob Pike,这几天被一封邮件惹毛了,接连几个「F**k」爆起粗口。邮件的大致内容是向他这种技术先驱表达感谢,原文是这么写的:尊敬的 Pik

    阅读全文
  • 文章封面

    马斯克的「移动客厅」又火了:20人座无方向盘,每公里才3毛钱

    作者:机器之心发布日期:2025-12-28 12:41:59

    编辑|杨文前段时间,旧金山大停电,Waymo 无人驾驶出租车集体趴窝,但依靠 FSD 系统驱动的特斯拉汽车丝毫不受影响。而去年在「we,robot」活动首次亮相的特斯拉 Robovan 视频,也被网友

    阅读全文
  • 文章封面

    AI 真能看懂物理世界吗?FysicsWorld:填补全模态交互与物理感知评测的空白

    作者:机器之心发布日期:2025-12-28 12:41:59

    近年来,多模态大语言模型正在经历一场快速的范式转变,新兴研究聚焦于构建能够联合处理和生成跨语言、视觉、音频以及其他潜在感官模态信息的统一全模态大模型。此类模型的目标不仅是感知全模态内容,还要将视觉理解

    阅读全文
  • 文章封面

    AI大佬Karpathy焦虑了:作为程序员,我从未感到如此落后

    作者:机器之心发布日期:2025-12-27 11:57:50

    编辑|泽南、杨文年末的假期,正是总结思考的时候。不过对于程序员来说,仔细这么一想可能会感觉有点不对劲。刚刚,Andrej Karpathy 在 X 上发的一条帖子,引发数万程序员和从业者强烈共鸣与热议

    阅读全文
  • 文章封面

    告别「单线程」思维:通研院提出NPR框架,让智能体进化出原生的并行推理大脑

    作者:机器之心发布日期:2025-12-27 11:57:50

    近年来,大语言模型在「写得长、写得顺」这件事上进步飞快。但当任务升级到真正复杂的推理场景 —— 需要兵分多路探索、需要自我反思与相互印证、需要在多条线索之间做汇总与取舍时,传统的链式思维(Chain-

    阅读全文
  • 文章封面

    SIGGRAPH Asia 2025|当视频生成真正「看清一个人」:多视角身份一致、真实光照与可控镜头的统一框架

    作者:机器之心发布日期:2025-12-27 11:57:50

    第一作者徐源诚是 Netflix Eyeline 的研究科学家,专注于基础 AI 模型的研究与开发,涵盖多模态理解、推理、交互与生成,重点方向包括可控视频生成及其在影视制作中的应用。他于 2025 年

    阅读全文
  • 文章封面

    视频生成DeepSeek时刻!清华&生数开源框架提速200倍,一周斩获2k Star

    作者:机器之心发布日期:2025-12-26 12:32:14

    编辑|杜伟在 2025 年的最后时刻,一个全新视频生成加速框架的开源宣告了:「等待数分钟才能生成一个视频」的时代已经终结!这个框架正是清华大学 TSAIL 团队与生数科技联合发布的 TurboDiff

    阅读全文
  • 文章封面

    Agent「记吃不记打」?华为诺亚&港中文发布SCOPE:Prompt自我进化,让HLE成功率翻倍

    作者:机器之心发布日期:2025-12-26 12:32:14

    机器之心发布在 LLM Agent 领域,有一个常见的问题:Agent 明明 "看到了" 错误信息,却总是重蹈覆辙。当 Agent 遇到工具调用错误时,错误日志里往往已经包含了解决方案 —— 正确的参

    阅读全文
  • 文章封面

    顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

    作者:机器之心发布日期:2025-12-26 12:32:14

    近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。论文:MeViS: A Multi-Mo

    阅读全文
  • 文章封面

    腾讯按下AI加速键,人才、组织、开源动作密集

    作者:机器之心发布日期:2025-12-25 13:24:08

    编辑|冷猫在外界感知中,腾讯在 AI 领域的动作更多被贴上稳健甚至克制的标签。但在 2025 年的尾声,从人才引进到产品迭代再到组织变革,一系列密集信号的发出,也侧面表明这个巨头正在按下加速键。12

    阅读全文
  • 文章封面

    无需再训练微调,一个辅助系统让GPT-5.2准确率飙到创纪录的75%

    作者:机器之心发布日期:2025-12-25 13:24:08

    编辑 | 杜伟、陈陈什么?决定 AI 上限的已不再是底座模型,而是外围的「推理编排」(Orchestration)。在 LLM 完全不变的前提下,仅靠一套 Agentic System,就能让 AI

    阅读全文
  • 文章封面

    越狱成功率飙升至87.6%,南京大学联合美团、上交破解主流视频生成模型安全漏洞

    作者:机器之心发布日期:2025-12-25 13:24:08

    来自南京大学 PRLab 的王淞平、钱儒凡,在单彩峰教授与吕月明助理教授的联合指导下,提出首个面向图生视频(I2V)模型的多模态自进化越狱攻击框架 RunawayEvil。本研究联合了美团、上海交通大

    阅读全文
  • 文章封面

    字节做了个 AI 手机,钉钉做了台 AI 主机

    作者:机器之心发布日期:2025-12-24 11:38:39

    编辑|张倩、陈陈没想到,2025 年的最后一个月,AI 硬件圈竟然这么热闹。月初,豆包 AI 手机上线即刷屏。大家发现,原来让 AI 接管手机之后,那么多事情都可以自动化。但没想到,上线第二天,一些

    阅读全文
上一页下一页