Qwen3 变身扩散语言模型?不从零训练也能跑,30B参数创纪录
机器之心报道编辑:张倩扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, A
阅读全文机器之心报道编辑:张倩扩散语言模型(Diffusion Language Models,DLM)一直以来都令研究者颇感兴趣,因为与必须按从左到右顺序生成的自回归模型(Autoregressive, A
阅读全文JADES 由德国亥姆霍兹信息安全中心 (CISPA),富莱睿(Flexera)和西安交通大学的研究团队合作完成。本文的通讯作者为 CISPA 教授张阳。引言回想一下,老师会如何批改考试中的开放题:如
阅读全文机器之心报道编辑:泽南真正实用化的生成式 AI,应该是这个样子 ——作为助手可以帮你代打电话,根据你的选项进行应答,还能引导对方转人工:功能覆盖多个场景,连接大量第三方应用,实现多智能体的一键协同:拍
阅读全文机器之心报道机器之心编辑部说起对 AI 的使用,著名数学家陶哲轩可谓是最具代表性的一位。这位菲尔兹奖得主,不仅在数学领域不断拓展边界,如今也积极尝试与 AI 协作,探索人工智能在数学研究中的真正潜力。
阅读全文一个只见过文本的大语言模型(LLM),在从未直接看过图像的情况下,竟然能学到可迁移到视觉任务的先验能力 —— 这是 Meta Superintelligence Labs 与牛津团队新论文的发现。近日
阅读全文机器之心报道编辑:冷猫、张倩黑掉一个大模型似乎比人们预期的要简单得多?在传统观点中,要想攻击或是污染一个具有庞大参数量的大模型是一件非常困难的事。从训练数据入手攻击是一个常见的思路,普遍观念认为需要极
阅读全文机器之心报道机器之心编辑部Figure 03为走入家庭和规模化量产而来。一间屋子里,一个机器人忙个不停。给人端茶倒水、俯身收拾垃圾,转身清洗餐具,又熟练地将衣物洗净、折叠、归类,可以说是包揽一切家务活
阅读全文从仓库里的物流机器人到科幻电影中的「贾维斯」,我们对智能机器人的想象从未停止。学术界在模拟器里实现了越来越复杂的协作任务,工业界也让机器人学会了韦伯斯特空翻。然而,一个残酷的现实是:当下的机器「人」更
阅读全文机器之心原创作者:吴昕Ling-1T给效率革命交了一份更贴近场景的答卷——万亿级储备,百亿级开销,产业级落地。规模、速度与推理精度,其实可以兼顾。完全测不过来了。仅仅一个 9 月,全球就有十余家主流玩
阅读全文机器之心编译作者:Han Fang、Karthik Abinav Sankararaman机器之心编辑部LLM 后训练最佳入门介绍。在大模型时代,Scaling Law 一度是 AI 领域公认的准则:
阅读全文本文共同第一作者为李鸿宇(布朗大学博士生)和孙凌峰(Robotics and AI Institute 研究员,博士毕业于加州大学伯克利分校)。通讯作者付佳慧在 Robotics and AI Ins
阅读全文在多模态模型里,CLIP-style encoder 往往把视觉表征过早地拉近到文本空间:对于抽象层面的问答,如总结图片大致内容,这样的表征其实是没有什么问题的,但一旦追问与语言无强依赖的细节,模型就
阅读全文机器之心报道机器之心编辑部最新消息,清华物理系传奇特奖得主 Yao Shunyu(姚顺宇)离开 Anthropic,加入 Google DeepMind。根据姚顺宇在博客上发表的文章得知,他于 9 月
阅读全文机器之心报道编辑:Panda当前,AI 领域最火热的浪潮无疑是 AI Agent(智能体)。从科技巨头到创业公司,无数开发者正投身于构建能够自主理解、规划和执行复杂任务的智能系统。然而,在这股「淘金热
阅读全文机器之心报道机器之心编辑部AI 时代,智能体对短期对话的处理能力已不再是难题。真正的挑战是让智能体在数百步的探索中依然保持清晰的推理与稳健的决策。传统的强化学习框架在几十步内尚能应付,但一旦任务延展至
阅读全文机器之心报道编辑:PandaOpenAI 今年的开发者大会(OpenAI DevDay 2025)正在进行中。Keynote 一开场,山姆・奥特曼便分享了 OpenAI 这两年取得的成绩:400 万开
阅读全文清华大学朱军教授团队, NVIDIA Deep Imagination 研究组与斯坦福 Stefano Ermon 团队联合提出了一种全新的扩散模型强化学习(RL)范式 ——Diffusion Neg
阅读全文机器之心报道机器之心编辑部苹果这几天真是进入了论文高产期,时不时就有新的研究发布出来。就在近日,苹果又发布了一篇引发学界与业界关注的重磅论文。这篇论文非常有意思,它用强化学习训练模型,让模型能够准确标
阅读全文机器之心报道编辑:冷猫AI 编程工具的进步速度正在迅速加快。如果各位读者从事涉及代码相关的工作,应该很能察觉到近两年 AI 编程能力的进化幅度,GPT-5 和 Gemini 2.5 等最新前沿大模型已
阅读全文近日,来自 MetaGPT、蒙特利尔大学和 Mila 研究所、麦吉尔大学、耶鲁大学等机构的研究团队发布 CARE 框架,一个新颖的原生检索增强推理框架,教会 LLM 将推理过程中的上下文事实与模型自身
阅读全文机器之心报道编辑:杜伟、陈陈一夜之间,文生图领域的「王座」被国产大模型拿下!主角是腾讯混元团队发布并开源仅一周的原生多模态生图模型 —— 混元图像 3.0(HunyuanImage 3.0)。在国际权
阅读全文机器之心报道编辑:冷猫早在 2021 年,研究人员就已经发现了深度神经网络常常表现出一种令人困惑的现象,模型在早期训练阶段对训练数据的记忆能力较弱,但随着持续训练,在某一个时间点,会突然从记忆转向强泛
阅读全文“知人者智,自知者明。”——《道德经》古人早已洞见:真正的人类智慧,不仅仅在于公式推演、掌握技艺,更是能理解他人、洞察人心。今天的大语言模型已能在代码、数学与工具使用上出色地完成任务,然而距离成为真正
阅读全文机器之心报道机器之心编辑部Agent(智能体)是最近一段时间的人工智能热点之一,将大语言模型的能力与工具调用、环境交互和自主规划结合起来,使其能够像虚拟助理一样完成复杂任务。其中「计算机使用智能体」(
阅读全文机器之心报道机器之心编辑部「人工智能是新的电力。」——吴恩达吴恩达 (Andrew Ng) 执教的斯坦福 CS230 深度学习旗舰课程已更新至 2025 秋季版,首讲视频现已公开!课程采用翻转课堂模式
阅读全文本文作者团队来自 Insta360 影石研究院及其合作高校。目前,Insta360 正在面向世界模型、多模态大模型、生成式模型等前沿方向招聘实习生与全职算法工程师,欢迎有志于前沿 AI 研究与落地的同
阅读全文机器之心报道编辑:+0Meta 内部混战又有新剧情了,这次主角是 FAIR 实验室。据 The Information 报道,两位知情人士透露,Meta 最近对 FAIR 实验室施加了一项新政策:所有
阅读全文机器之心报道机器之心编辑部推理训练促使大语言模型(LLM)生成长思维链(long CoT),这在某些方面有助于它们探索解决策略并进行自我检查。虽然这种方式提高了准确性,但也增加了上下文长度、token
阅读全文本文第一作者王升,陈鹏安与周靖淇均来自香港大学。通讯作者为香港大学计算机科学系吴川教授与孔令鹏教授。其他作者还包括来自香港大学的李沁桐、董经纬、高佳慧,以及香港中文大学的薛博阳、江继越。想象一下,你接
阅读全文机器之心报道机器之心编辑部对于大模型开发者 / 研究者来说,今天是重要的一天。因为刚刚,OpenAI 前 CTO Mira Murati 创办的 Thinking Machines 推出了首款产品 —
阅读全文