SFT在帮倒忙?新研究:直接进行强化学习,模型多模态推理上限更高
机器之心报道编辑:张倩「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」随着 OpenAI 的 o1/o3 和 Deepseek-
阅读全文机器之心报道编辑:张倩「尽管经过 SFT 的模型可能看起来在进行推理,但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」随着 OpenAI 的 o1/o3 和 Deepseek-
阅读全文本文由 NUS ShowLab 主导完成。第一作者宋亦仁为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成和多模态,在 CVPR、SIGGRAPH、NeurIPS 等国际顶级会议
阅读全文本文作者主要来自 Meta 和多所美国高校。第一作者是佐治亚理工机器学习专业的博士生赖柏霖(目前也是 UIUC 的访问学生),导师为 James Rehg 教授(已转入 UIUC),主要研究方向是多模
阅读全文机器之心发布机器之心编辑部孙子兵法有云:“故其疾如风,其徐如林”,意指在行进迅速时,如狂风飞旋;而在行进从容时,如森林徐徐展开。同样,对于大模型,我们也希望其面对简单问题时能减少思考内容,快速输出答案
阅读全文机器之心报道机器之心编辑部网友笑称: Hugging Face开源的机器人看起来不太聪明。伊隆・马斯克曾预测称到 2040 年,全球将有 100 亿台人形机器人在工作,而现在,随着 Hugging F
阅读全文机器之心报道编辑:Panda当状态空间模型遇上扩散模型,对世界模型意味着什么?在这个 AI 技术与应用大爆发的时代,我们最不缺的就是「热词」,从自回归到扩散模型,从注意力机制到状态空间模型,从思维链到
阅读全文「知其然,亦知其所以然。」这句儒家命题强调,真正的理解不仅在于结果,更在于推理过程。如今,在大型语言模型的后训练阶段,奖励模型承担着桥接模型行为与人类价值的重要职责;但现有模型往往只给出一个分数,却难
阅读全文机器之心发布机器之心编辑部Pangu Ultra MoE 是一个全流程在昇腾 NPU 上训练的准万亿 MoE 模型,此前发布了英文技术报告[1]。最近华为盘古团队发布了 Pangu Ultra MoE
阅读全文机器之心报道编辑:+0又有一个 AI Scientist 的论文通过了顶会同行评审。今天,Intology 宣布他们的 AI 科学家 Zochi 的论文被顶会 ACL 主会录用,成为首个独立通过 A*
阅读全文本文作者来自通义实验室和北京大学,第一作者是北京大学智能学院博士生孙浩,主要研究方向是RAG和Agent,在 NeurIPS、ACL、EMNLP 等国际顶级会议上发表多篇论文,师从张岩教授。该工作在阿
阅读全文本文共同第一作者为新加坡国立大学博士生铁宸睿和多伦多大学研究助理/本科生孙圣翔。合作者为朱锦轩、刘益伟、郭京翔、胡越、陈浩楠、陈俊廷、吴睿海。通讯作者为新加坡国立大学计算机学院助理教授邵林,研究方向为
阅读全文机器之心发布机器之心编辑部当前,混合专家模型(Mixture of Experts, MoE)在大型语言模型中的兴起,使得以较小的计算开销换取更大能力成为可能。然而,传统 MoE 普遍存在专家激活频次
阅读全文机器之心报道编辑:泽南、+0我们训练了这么久,都在训练些什么?这是今年最「好笑」的一篇论文。本文一出,所有的大语言模型(LLM)+ 强化学习(RL)都要被质疑是否有意义了。这周二,一篇来自华盛顿大学、
阅读全文深圳大学黄惠团队独立推出 CLR-Wire:连续潜空间驱动的三维曲线框生成方法,首次实现了将复杂的三维曲线框结构统一编码到连续的潜空间中,解决了传统方法难以同时有效捕捉线框几何和拓扑信息的难题。这一创
阅读全文机器之心报道编辑:Panda大模型越来越聪明,企业却似乎越来越焦虑了。模型性能突飞猛进,从写文案到搭智能体(Agent),AI 掌握的技能也越来越多。但一到真正上线部署,问题就来了:为什么推理成本越来
阅读全文机器之心报道编辑:+0、Panda强化学习 (RL) 显著提升了视觉-语言模型 (VLM) 的推理能力。然而,RL 在推理任务之外的应用,尤其是在目标检测 和目标定位等感知密集型任务中的应用,仍有待深
阅读全文在大型推理模型(例如 OpenAI-o3)中,一个关键的发展趋势是让模型具备原生的智能体能力。具体来说,就是让模型能够调用外部工具(如网页浏览器)进行搜索,或编写/执行代码以操控图像,从而实现「图像中
阅读全文随着大语言模型(LLM)能力的快速迭代,传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征,例如价值观、性格和社交智能?如何建立更全面、更可靠的 AI 评估体系?北京大学宋国杰教授团队最
阅读全文机器之心原创编辑:杜伟国产智能体,这次真封神了。过去这段时间,「智能体」简直杀疯了。无论是初创公司还是互联网大厂,主流 AI 玩家们都开始围着它转,说它是大模型的下一站也毫不夸张。作为人工智能的一种高
阅读全文选自𝕏作者:Nando de Freitas机器之心编译别人都在用 X 发帖子,分享新鲜事物,微软副总裁 Nando de Freitas 却有自己的想法:他要在 X 上「开课」,发布一些关于人工智能
阅读全文该工作由北京深度逻辑智能科技有限公司×宁波东方理工EIT-NLP实验室联合完成。语音合成(TTS)技术近十年来突飞猛进,从早期的拼接式合成和统计参数模型,发展到如今的深度神经网络与扩散、GAN 等先进
阅读全文选自量子杂志作者:Ben Brubaker机器之心编译相信大家都曾有过这样的经历:运行某个程序时,电脑突然卡住,轻则恢复文件,重则重新创建;或者手机频繁弹出「内存不足」的警告,让我们不得不忍痛删除珍贵
阅读全文机器之心报道编辑:Panda、+0近年来,LLM 及其多模态扩展(MLLM)在多种任务上的推理能力不断提升。然而, 现有 MLLM 主要依赖文本作为表达和构建推理过程的媒介,即便是在处理视觉信息时也是
阅读全文自 Anthropic 推出 Claude Computer Use,打响电脑智能体(Computer Use Agent)的第一枪后,OpenAI 也相继推出 Operator,用强化学习(RL)算
阅读全文选自量子杂志作者:Leila Sloman机器之心编译加法,这项我们从幼儿园就掌握的运算,竟然蕴藏着未解之谜。 它是一项简单的运算:我们学到的第一个数学真理便是 1 加 1 等于 2。但加法能够产生的
阅读全文机器之心报道编辑:Panda、陈陈最近,AI 在数学和编程上的能力飞跃令人瞠目结舌 —— 在不少任务上,它已经悄然超越了我们大多数人类。而当它面对真正的专家,会发生什么?Epoch AI 最近安排了一
阅读全文深圳市大数据研究院、香港中文大学(深圳)研究团队最新研究发现, 这类特殊的矩阵乘法可以进一步加速,并在强化学习与组合优化技术的结合下发掘出了一种新的算法,节省 5% 的乘法数量。论文标题:XXt Ca
阅读全文选自Nathan Lambert博客机器之心编译作者:Nathan Lambert本文详细解读了 Kimi k1.5、OpenReasonerZero、DAPO 和 Dr. GRPO 四篇论文中的创新
阅读全文机器之心发布机器之心编辑部现如今,随着参数规模的指数级增长,大语言模型(LLM)的能力边界不断被打破,AI 的智力正在经历快速跃迁。但随之而来的是,大模型在落地过程中面临着一系列推理层面的难题,比如推
阅读全文2025 年 6 月 6-7 日中国,北京这个初夏四位图灵奖得主与全球创新力量共赴智源大会即刻报名,探寻 AI 时代的无尽边域2006 年,多伦多大学 Geoffrey Hinton 教授等人提出逐层
阅读全文