ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are
阅读全文大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are
阅读全文机器之心报道编辑:陈陈、杜伟5 月 3 日至 5 日,第 28 届国际人工智能与统计学会议(AISTATS)在泰国举办。作为人工智能、机器学习与统计学交叉领域的重要国际会议,自 1985 年创办以来,
阅读全文机器之心报道编辑:陈萍该研究对 LLM 常见的失败模式贪婪性、频率偏差和知 - 行差距,进行了深入研究。大语言模型(LLMs)的成功激发了人们对各种智能体的兴趣。将 LLM 用于智能体的一个关键假设是
阅读全文机器之心报道编辑:蛋酱编程智能体,几乎成为了 2025 年最热门的话题之一。不管是学术机构还是工业界,都在寻找更高效的落地路径。机器学习领域的历史经验表明,手工设计的解决方案最终会被学习到的解决方案所
阅读全文破解 “只学不练” 与 “只练不学” 的难题想象你准备参加一场高水平的数学竞赛。如果你只是反复背诵往年题目的标准答案,从不亲自动手解题,那么一旦遇到新题型,很可能束手无策;反过来,如果你闭门造车,只凭
阅读全文机器之心报道编辑:SiaNotebookLM 正在变成谷歌 AI 路线里最靠谱的选手之一:现在除了支持中文播报,还要上移动 App,变身日常学习办公神器。能将音频源转化为引人入胜、类似播客的对话,No
阅读全文选自 maknee.github.io作者:Henry Zhu机器之心编译在 AI 领域里,大模型通常具有百亿甚至数千亿参数,训练和推理过程对计算资源、存储系统和数据访问效率提出了极高要求。2 月 2
阅读全文本文由圣路易斯华盛顿大学与北京大学联合完成,第一作者为圣路易斯华盛顿大学的刘晓一,他在北京大学访问期间完成了该项研究;通讯作者为北京大学计算机学院唐浩助理教授 / 研究员。从单张低分辨率(LR)图像恢
阅读全文本文作者均来自中兴通讯无线研究院「大模型深潜」团队。团队重点攻关方向包括「推理模型构建:蒸馏与强化学习方法」、「无线通信故障定位与根因分析推理模型」、「多模态推理模型」和「推理加速技术」。核心成员毕业
阅读全文机器之心报道编辑:蛋酱、刘欣i 人参与大型学术会议,如何在享受人群的同时展开有效社交?有点难度,但「其实也并非完全不可能」。「我写了一篇关于如何在计算机科学会议上与人建立联系(也就是交朋友)的文章。这
阅读全文选自ampcode.com作者:Thorsten Ball机器之心编译知名 Go 大佬 Thorsten Ball 最近用 315 行代码构建了一个编程智能体,并表示「它运行得非常好」且「没有护城河」
阅读全文本文由阿里云通义点金团队和苏州大学联合完成。近日,阿里云通义点金团队与苏州大学携手合作,在金融大语言模型领域推出了突破性的创新成果:DianJin-R1。这款推理增强型金融大模型,融合了先进的技术和全
阅读全文本文第一作者为密歇根州立大学计算机系博士生张益萌,系 OPTML 实验室成员,指导老师为刘思佳助理教授。研究工作主要完成于张益萌在字节跳动的实习期间。扩散模型(Diffusion Models, DM
阅读全文机器之心报道编辑:张倩、+0第 42 届国际机器学习大会(ICML)将于 2025 年 7 月 13 日至 19 日在加拿大温哥华举行。刚刚,ICML 官方向投稿者发送了今年论文接收结果的通知。数据显
阅读全文机器之心报道编辑:张倩LoRA 中到底存在多少参数冗余?这篇创新研究介绍了 LoRI 技术,它证明即使大幅减少 LoRA 的可训练参数,模型性能依然保持强劲。研究团队在数学推理、代码生成、安全对齐以及
阅读全文当前,多模态大模型驱动的图形用户界面(GUI)智能体在自动化手机、电脑操作方面展现出巨大潜力。然而,一些现有智能体更类似于「反应式行动者」(Reactive Actors),主要依赖隐式推理,面对需要
阅读全文选自 Ahead of AI作者:Sebastian Raschka机器之心编译推理模型发展正盛,著名 AI 技术博主 Sebastian Raschka 也正在写一本关于推理模型工作方式的新书《Re
阅读全文机器之心报道编辑:大盘鸡、泽南DeepSeek R2 的前奏?五一劳动节到了,DeepSeek 的新消息可没停下来。前些天到处都在流传着 DeepSeek-R2 即将发布的传言,DeepSeek 确实
阅读全文机器之心报道编辑:张倩这篇论文包含了当前 LLM 的许多要素,十年后的今天或许仍值得一读。发布于 2017 年的 Transformer 论文——「Attention is all you need」
阅读全文合作单位包括清华、国科大、上海交大、阿里巴巴。本文第一作者为殷东硕,清华大学计算机系「水木学者」博后,中科院博士,曾以一作身份在 Nature Communications、IEEE CVPR、IEE
阅读全文机器之心报道编辑:Panda现如今,微调和强化学习等后训练技术已经成为提升 LLM 能力的重要关键。近日,一份围绕 LLM 后训练的综述报告收获了不少好评,其整理相关论文和工具的资源库已经收获了超过
阅读全文机器之心报道编辑:杨文、Panda昨晚,奥特曼在 X 上发了条帖子,大意是由于发现 GPT-4o 「过于谄媚」的问题,所以从周一晚上开始回滚 GPT-4o 的最新更新。免费 ChatGPT 用户已 1
阅读全文机器之心报道编辑:刘欣在人工智能领域,语言模型的发展日新月异,推理能力作为语言模型的核心竞争力之一,一直是研究的焦点,许多的 AI 前沿人才对 AI 推理的效率进行研究。高昂的计算成本和复杂的硬件需求
阅读全文论文作者包括来自上海交通大学的杨滢轩、柴化灿、宋源祎、齐思远、温睦宁、李宁、廖俊威、胡浩毅、林江浩、刘卫文、温颖、俞勇、张伟楠,以及 ANP 社区发起人常高伟。随着大语言模型 (LLM) 技术的迅猛发
阅读全文李武军教授为通讯作者,硕士生林昊(已毕业,现工作于阿里巴巴)、吴轲、李杰为共同第一作者,博士生李俊为参与作者。训练成本高昂已经成为大模型和人工智能可持续发展的主要障碍之一。大模型的训练往往采用多机多卡
阅读全文机器之心报道编辑:Panda、杜伟今天凌晨,从昨晚开始预热、备受全球 AI 圈关注的 Qwen3 系列模型终于正式亮相了!Qwen3 模型依旧采用宽松的 Apache2.0 协议开源,全球开发者、研究
阅读全文机器之心报道机器之心编辑部近日,ISCA Fellow 2025 入选结果揭晓!ISCA Fellow 是由国际语音通讯协会(International Speech Communication As
阅读全文本篇工作已被电子设计自动化领域顶级会议 DAC 2025 接收,由上海交大计算机学院蒋力教授与刘方鑫助理教授带领的 IMPACT 课题组完成,同时也获得了华为 2012 实验室和上海期智研究院的支持。
阅读全文机器之心报道机器之心编辑部聚是一团火,散是满天星。硅谷新势力已经崛起,这些创业者来自 OpenAI。作为 ChatGPT 的缔造者,OpenAI 堪称当今人工智能领域最耀眼的明星。这家公司正以惊人的速
阅读全文机器之心报道编辑:杜伟最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(length scaling),通过强化学习(比如 PPO、GPRO)训练模型
阅读全文