仅0.04B!哈工深首创同层混合架构STILL,极低成本线性化LLM
随着大语言模型上下文长度增长,标准 Softmax Attention 的二次复杂度逐渐成为推理与部署的结构性瓶颈。尤其在 prefill 阶段,计算与显存开销会随序列长度呈平方增长,导致吞吐下降与部
阅读全文随着大语言模型上下文长度增长,标准 Softmax Attention 的二次复杂度逐渐成为推理与部署的结构性瓶颈。尤其在 prefill 阶段,计算与显存开销会随序列长度呈平方增长,导致吞吐下降与部
阅读全文放弃残差之后,底层架构该怎么写?苏剑林用这篇文章,还原了他们把 Attention 加进层间连接的全过程。©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神
阅读全文ICLR(International Conference on Learning Representations)是机器学习和人工智能领域最具影响力的年度学术会议之一,与 NeurIPS、ICML
阅读全文不看榜单跑分,我们直接让 M2.7 接管了查文献、修 bug、跑实验的科研流水线。过去一年,业界大多把精力卷在了外部的 Agent Harness 上,任务编排与工具链越做越重。但面对真实的复杂业务,
阅读全文TL;DR / 白话总结:1)“无监督 LLM Ensemble/Collaboration 问题”:如何集成“从多个不同的 LLM 生成的不同 responses” [1],以得到一份尽可能优质的
阅读全文PaperWeekly × 星弧 STARC 科研觉醒AI前沿讲座 直播主题 从“记忆”视角理解Transformer大模型观察与高效推理方法 直播嘉宾 胡俊杰UW–Madison 助理教授卡内基梅
阅读全文0 实验纯推导也能冲顶会?最近,一份离谱的顶会投稿记录在网上传开了。一位高中生作为第一作者,向 ICLR 2026 一口气投了 15 篇论文。结果挺惨烈,全军覆没。数量夸张是一方面,其中一篇文章甚至经
阅读全文AI 换脸、AI 造谣早已无孔不入,一张篡改的图片、一段 AI 大模型写的通顺文案,就能造出一条以假乱真的新闻,搅动舆论、误导公众,可现有检测系统却常常“视而不见”?问题核心在于:当前的假新闻检测技术
阅读全文「龙虾养殖潮」风靡大街小巷,已成为一门社交语言。但对非技术的小白们来说,如何更快学习使用龙虾(OpenClaw)、更好地「吃」上龙虾的红利呢?我们先来看一个动图:在上述动图中,AI 应用知名 KOL
阅读全文新学期伊始,2026 年也已悄然进入第三个月。我们想邀请你——走在科研最前线的探索者,来做一个前瞻性的预测:2026年,工程领域哪个细分方向最有可能迎来新的突破与关注?在科研不断演进的进程中,研究热点
阅读全文一行指令,全自动查文献、跑实验并交付论文初稿。前两天分享的 ARIS 让大家看到了让 AI 自动调代码跑实验的潜力,效果确实惊艳。今天来看个更进阶的:发一条消息,收一篇完整论文。相较于单纯依赖大模型生
阅读全文与其在实验室通宵,不如让 Claude 替你卷。如果你还在熬夜手搓代码、调参跑实验,那这个刚刚开源的科研工作流绝对会让你眼前一亮。它就是 ARIS(Auto-Research-In-Sleep),一款
阅读全文TL;DR:本研究提出了一种可跨不同领域、适用于特征维度各异且特征空间异构的数据集的异常检测通用模型。论文标题:UniOD: A Universal Model for Outlier Detecti
阅读全文如今的计算机视觉顶会,正在迎来更加年轻的参与者。卷。太卷了。逾三万人参与投稿,16092 篇有效文章进入评审,最终接收率仅 25.42%。在刚刚放榜的 CVPR 2026 中,合肥安生学校的 17 岁
阅读全文论文标题:TRACE: Trajectory Recovery for Continuous Mechanism Evolution in Causal Representation Learning
阅读全文蚂蚁集团 2026 届春招现已全面开启本次释放超 70% AI 相关岗位聚焦大模型、多模态、智能体AI Infra 及具身智能等前沿方向想在春招投递中抢占先机?点击关注「蚂蚁集团招聘」公众号后台回复「
阅读全文今天跟大家分享一篇来自中国科学技术大学、香港城市大学、华为诺亚方舟实验室、大连理工大学的论文,已被 ICLR 2026 接收。针对传统单粒度记忆建模难以建立跨会话、多层次关联,且容易出现关键信息检索不
阅读全文近期,林俊旸离开千问团队的消息在全网引发了广泛关注。而这篇近期上线 arXiv 的论文,或许是他在千问交出的最后一份答卷。当前,大型推理模型(LRMs,如 Qwen3-Thinking 系列)在复杂数
阅读全文该工作提出了一种名为 WMSS(Weak Agents Can Make Strong Agents Stronger)的新型后训练范式,旨在解决大语言模型在监督微调(SFT)后期普遍面临的优化饱和问
阅读全文学术界长期以为大值激活与 Attention Sink 强绑定,LeCun 团队打破了这一常识。在 Transformer 架构中,长期存在两个如影随形的内部计算现象:大值激活(Massive Act
阅读全文©作者 | 郑晨宇单位 | 中国人民大学研究方向 | 机器学习理论概要muP 由于其能够保持模型特征学习稳定、解锁超参迁移能力的优良特性,已经被广泛应用于大模型的宽度 scaling 之中。然而,相较
阅读全文128K 长文本频频失忆?陈丹琦团队提出纯解码算法 DYSCO,免微调让推理性能提升 25%。当前各大模型厂商在技术报告中都宣称支持 128K 甚至更长的上下文窗口。然而,实际测试表明,随着输入长度的
阅读全文研究背景不同行业的图数据具有天然的差异化特性,使得图模型的学习面临着更严峻的多域多任务泛化挑战。在图学习领域,基础模型范式——“预训练 + 下游微调”的范式成为主流。研究者通常先在大规模图数据上进行自
阅读全文当大模型还在验证,小模型已算好下一步。全异步架构彻底终结解码串行等待。大模型推理的核心瓶颈长期在于自回归解码的串行本质。投机解码(Speculative Decoding, SD)通过引入一个轻量级的
阅读全文过去几年,机器学习在系统领域的“下沉”非常明显:它不再只做单纯的推荐、内容分类、搜索排序,还开始直接参与系统里的底层决策,例如基于 ML 模型的调度算法、缓存算法、负载均衡算法等。同时,ML for
阅读全文显存暴降至 50MB!Sakana AI 提出更新成本摊销,打破长文本 KV-Cache 瓶颈。面对十万乃至百万级别的超长序列输入,Transformer 架构中呈二次方增长的注意力计算与 KV-Ca
阅读全文PaperWeekly × 星弧 STARC 科研觉醒AI前沿讲座 直播主题 迈向安全可靠的 AI 智能体 直播嘉宾 肖超玮JHU 助理教授、NVIDIA Research 研究员 直播时间 202
阅读全文你的 Mac 桌面,刚刚变成了一台超高能效的 AI 超算。苹果 M4 芯片内置的神经网络引擎(ANE)原本有着严格的官方定位:仅限推理,其底层权限被彻底封锁。但在近期,一项系统级开源项目硬是砸开了这个
阅读全文拒绝原地打转!通义实验室开源多端 GUI 基座,会反思、能调用工具,让 Agent 真正把活干完。说起 GUI Agent,最尴尬的时刻大概不是它点错按钮,而是它一本正经地操作了半天,最后把你带回了原
阅读全文我们每天都在跟进最新的顶会和明星模型,但纸面上的精妙公式在实际训练中总是无懈可击吗?©作者 | 谢天单位 | 微软亚洲研究院研究员研究方向 | 大模型预训练算法最近几周在学习 DeepSeek mHC
阅读全文