机器之心

ICML 2025 | 注意力机制中的极大值：破解大语言模型上下文理解的关键
作者：机器之心发布日期：2025-05-06 12:11:39
大型语言模型（LLMs）在上下文知识理解方面取得了令人瞩目的成功。近日，一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are
阅读全文
8/8/7分被NeurIPS拒稿，谢赛宁读博投的首篇论文，10年后获AISTATS 2025时间检验奖
作者：机器之心发布日期：2025-05-05 11:40:38
机器之心报道编辑：陈陈、杜伟5 月 3 日至 5 日，第 28 届国际人工智能与统计学会议（AISTATS）在泰国举办。作为人工智能、机器学习与统计学交叉领域的重要国际会议，自 1985 年创办以来，
阅读全文
谷歌DeepMind：大模型也很任性，知道最优路径偏要撞南墙
作者：机器之心发布日期：2025-05-05 11:40:38
机器之心报道编辑：陈萍该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距，进行了深入研究。大语言模型（LLMs）的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是
阅读全文
成熟的编程智能体，已经学会升级自己的系统了
作者：机器之心发布日期：2025-05-05 11:40:38
机器之心报道编辑：蛋酱编程智能体，几乎成为了 2025 年最热门的话题之一。不管是学术机构还是工业界，都在寻找更高效的落地路径。机器学习领域的历史经验表明，手工设计的解决方案最终会被学习到的解决方案所
阅读全文
边学边练，推理觉醒：LUFFY让强化学习即学即用！
作者：机器之心发布日期：2025-05-05 11:40:38
破解 “只学不练” 与 “只练不学” 的难题想象你准备参加一场高水平的数学竞赛。如果你只是反复背诵往年题目的标准答案，从不亲自动手解题，那么一旦遇到新题型，很可能束手无策；反过来，如果你闭门造车，只凭
阅读全文
谷歌NotebookLM终于说中文了！这可是最火的大模型播客产品
作者：机器之心发布日期：2025-05-04 12:57:17
机器之心报道编辑：SiaNotebookLM 正在变成谷歌 AI 路线里最靠谱的选手之一：现在除了支持中文播报，还要上移动 App，变身日常学习办公神器。能将音频源转化为引人入胜、类似播客的对话，No
阅读全文
DeepSeek开源的文件系统，是如何提升大模型效率的？
作者：机器之心发布日期：2025-05-04 12:57:17
选自 maknee.github.io作者：Henry Zhu机器之心编译在 AI 领域里，大模型通常具有百亿甚至数千亿参数，训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。2 月 2
阅读全文
CVPR 2025 Oral | DiffFNO：傅里叶神经算子助力扩散，开启任意尺度超分辨率新篇章
作者：机器之心发布日期：2025-05-04 12:57:17
本文由圣路易斯华盛顿大学与北京大学联合完成，第一作者为圣路易斯华盛顿大学的刘晓一，他在北京大学访问期间完成了该项研究；通讯作者为北京大学计算机学院唐浩助理教授 / 研究员。从单张低分辨率（LR）图像恢
阅读全文
大模型推理上限再突破：「自适应难易度蒸馏」超越R1蒸馏，长CoT语料质量飞升
作者：机器之心发布日期：2025-05-04 12:57:17
本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建：蒸馏与强化学习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业
阅读全文
i人如何在学术会议有效社交？滑铁卢大学教授Gautam Kamath亲授心得
作者：机器之心发布日期：2025-05-03 12:18:28
机器之心报道编辑：蛋酱、刘欣i 人参与大型学术会议，如何在享受人群的同时展开有效社交？有点难度，但「其实也并非完全不可能」。「我写了一篇关于如何在计算机科学会议上与人建立联系（也就是交朋友）的文章。这
阅读全文
315 行代码构建编程助手，Go大佬揭开智能体的「神秘面纱」
作者：机器之心发布日期：2025-05-03 12:18:28
选自ampcode.com作者：Thorsten Ball机器之心编译知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体，并表示「它运行得非常好」且「没有护城河」
阅读全文
阿里云通义点金发布DianJin-R1金融领域推理大模型，32B模型荣膺榜首
作者：机器之心发布日期：2025-05-03 12:18:28
本文由阿里云通义点金团队和苏州大学联合完成。近日，阿里云通义点金团队与苏州大学携手合作，在金融大语言模型领域推出了突破性的创新成果：DianJin-R1。这款推理增强型金融大模型，融合了先进的技术和全
阅读全文
CVPR 2025 | 如何稳定且高效地生成个性化的多人图像？ID-Patch带来新解法
作者：机器之心发布日期：2025-05-03 12:18:28
本文第一作者为密歇根州立大学计算机系博士生张益萌，系 OPTML 实验室成员，指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。扩散模型（Diffusion Models, DM
阅读全文
ICML 2025放榜！接收率26.9%，高分被拒，低分录用惹争议
作者：机器之心发布日期：2025-05-02 12:39:05
机器之心报道编辑：张倩、+0第 42 届国际机器学习大会（ICML）将于 2025 年 7 月 13 日至 19 日在加拿大温哥华举行。刚刚，ICML 官方向投稿者发送了今年论文接收结果的通知。数据显
阅读全文
LoRA中到底有多少参数冗余？新研究：砍掉95%都能保持高性能
作者：机器之心发布日期：2025-05-02 12:39:05
机器之心报道编辑：张倩LoRA 中到底存在多少参数冗余？这篇创新研究介绍了 LoRI 技术，它证明即使大幅减少 LoRA 的可训练参数，模型性能依然保持强劲。研究团队在数学推理、代码生成、安全对齐以及
阅读全文
浙大&港理工等提出InfiGUI-R1：利用强化学习，让GUI智能体学会规划任务、反思错误
作者：机器之心发布日期：2025-05-02 12:39:05
当前，多模态大模型驱动的图形用户界面（GUI）智能体在自动化手机、电脑操作方面展现出巨大潜力。然而，一些现有智能体更类似于「反应式行动者」（Reactive Actors），主要依赖隐式推理，面对需要
阅读全文
Sebastian Raschka 新书《从头开始推理》抢先看，揭秘推理模型基础
作者：机器之心发布日期：2025-05-02 12:39:05
选自 Ahead of AI作者：Sebastian Raschka机器之心编译推理模型发展正盛，著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Re
阅读全文
DeepSeek开源Prover-V2强推理模型，网友：奥数从没这么简单过
作者：机器之心发布日期：2025-05-01 10:11:18
机器之心报道编辑：大盘鸡、泽南DeepSeek R2 的前奏？五一劳动节到了，DeepSeek 的新消息可没停下来。前些天到处都在流传着 DeepSeek-R2 即将发布的传言，DeepSeek 确实
阅读全文
被Transformer光芒掩盖的论文，Meta科学家回顾十年前创新之作
作者：机器之心发布日期：2025-05-01 10:11:18
机器之心报道编辑：张倩这篇论文包含了当前 LLM 的许多要素，十年后的今天或许仍值得一读。发布于 2017 年的 Transformer 论文——「Attention is all you need」
阅读全文
CVPR 2025 | CV 微调卷出天际，Mona：我小、我强、我省资源
作者：机器之心发布日期：2025-05-01 10:11:18
合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕，清华大学计算机系「水木学者」博后，中科院博士，曾以一作身份在 Nature Communications、IEEE CVPR、IEE
阅读全文
后训练时代如何延续Scaling Law？这是你该读的LLM后训练综述
作者：机器之心发布日期：2025-05-01 10:11:18
机器之心报道编辑：Panda现如今，微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。近日，一份围绕 LLM 后训练的综述报告收获了不少好评，其整理相关论文和工具的资源库已经收获了超过
阅读全文
刚刚！OpenAI回滚了最新版本的GPT-4o，因ChatGPT「过于谄媚」
作者：机器之心发布日期：2025-04-30 12:23:28
机器之心报道编辑：杨文、Panda昨晚，奥特曼在 X 上发了条帖子，大意是由于发现 GPT-4o 「过于谄媚」的问题，所以从周一晚上开始回滚 GPT-4o 的最新更新。免费 ChatGPT 用户已 1
阅读全文
只花9美元，推理能力暴涨20%！小模型Tina震撼登场，成本缩减260倍
作者：机器之心发布日期：2025-04-30 12:23:28
机器之心报道编辑：刘欣在人工智能领域，语言模型的发展日新月异，推理能力作为语言模型的核心竞争力之一，一直是研究的焦点，许多的 AI 前沿人才对 AI 推理的效率进行研究。高昂的计算成本和复杂的硬件需求
阅读全文
上交大推出首个AI智能体协议全面综述：从碎片化到互联互通的智能体网络
作者：机器之心发布日期：2025-04-30 12:23:28
论文作者包括来自上海交通大学的杨滢轩、柴化灿、宋源祎、齐思远、温睦宁、李宁、廖俊威、胡浩毅、林江浩、刘卫文、温颖、俞勇、张伟楠，以及 ANP 社区发起人常高伟。随着大语言模型 (LLM) 技术的迅猛发
阅读全文
CVPR Oral | 南京大学李武军教授课题组推出分布式训练算法UniAP，大模型训练最高加速3.8倍
作者：机器之心发布日期：2025-04-30 12:23:28
李武军教授为通讯作者，硕士生林昊（已毕业，现工作于阿里巴巴）、吴轲、李杰为共同第一作者，博士生李俊为参与作者。训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。大模型的训练往往采用多机多卡
阅读全文
猛击OpenAI o1、DeepSeek-R1！刚刚，阿里Qwen3登顶全球开源模型王座，深夜爆火
作者：机器之心发布日期：2025-04-29 07:04:57
机器之心报道编辑：Panda、杜伟今天凌晨，从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了！Qwen3 模型依旧采用宽松的 Apache2.0 协议开源，全球开发者、研究
阅读全文
语音领域ISCA Fellow 2025公布：上海交大俞凯、台大李宏毅等三位华人入选
作者：机器之心发布日期：2025-04-29 07:04:57
机器之心报道机器之心编辑部近日，ISCA Fellow 2025 入选结果揭晓！ISCA Fellow 是由国际语音通讯协会（International Speech Communication As
阅读全文
上交大等探索键值压缩的边界：MILLION开源框架定义模型量化推理新范式，入选顶会DAC 2025
作者：机器之心发布日期：2025-04-29 07:04:57
本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收，由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成，同时也获得了华为 2012 实验室和上海期智研究院的支持。
阅读全文
除了Ilya、Karpathy，离职OpenAI的大牛们，竟然创立了这么多公司
作者：机器之心发布日期：2025-04-28 12:32:10
机器之心报道机器之心编辑部聚是一团火，散是满天星。硅谷新势力已经崛起，这些创业者来自 OpenAI。作为 ChatGPT 的缔造者，OpenAI 堪称当今人工智能领域最耀眼的明星。这家公司正以惊人的速
阅读全文
字节Seed团队PHD-Transformer突破预训练长度扩展！破解KV缓存膨胀难题
作者：机器之心发布日期：2025-04-28 12:32:10
机器之心报道编辑：杜伟最近，DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展（length scaling），通过强化学习（比如 PPO、GPRO）训练模型
阅读全文