全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    ICML 2026投稿开启:先别急着提交,详解史上最严的“连坐拒稿”机制

    作者:PaperWeekly发布日期:2026-01-09 12:16:43

    刚肝完 ACL 别急着投 ICML,先读完这份避坑指南。就在昨天,ICML 2026 的投稿系统已正式对外开放。对于刚结束前两天 ACL 投稿的同学来说,现在或许正准备一鼓作气,将手头剩下的工作,或者

    阅读全文
  • 文章封面

    美团AAAI 2026中稿精选:破解过度思考与退火Scaling Law | 直播预告

    作者:PaperWeekly发布日期:2026-01-09 12:16:43

    AAAI 是人工智能领域顶级的国际学术会议,本文精选了【美团技术团队】被收录的8篇学术论文(附下载链接),覆盖大模型推理、 退火策略、过程奖励模型、强化学习、视觉文本渲染等多个技术领域,欢迎一起交流学

    阅读全文
  • 文章封面

    谁说思维链越长越好?Yuan3.0 Flash开源:砍掉70%无效token,重构推理范式

    作者:PaperWeekly发布日期:2026-01-08 13:10:22

    首创「反思抑制」机制,让大模型学会在答对的那一刻果断停下。过去一年,大模型推理能力的进化几乎沿着一条单向路径前进:更复杂的推理过程、更长的思维链、更“像人类”的自我反思。在数学和科学推理等 bench

    阅读全文
  • 文章封面

    AAAI 2026 | 别再盲目采样了!OptScale实现概率最优停止,token消耗减半

    作者:PaperWeekly发布日期:2026-01-08 13:10:22

    多采样 = 更强推理? 在 Inference-time Scaling 成为大模型“最后一公里”标配之后,这几乎成了一条默认公理。从 Self-Consistency、Best-of-N,到 De

    阅读全文
  • 文章封面

    告别Scaling暴力美学:正如Ilya预言,算力不再是唯一的答案

    作者:PaperWeekly发布日期:2026-01-07 14:04:25

    Scaling 的黄金十年已过,我们正重新踏入一片充满“惊奇与未知”(Wonder and Discovery)的探索之地。这是 OpenAI 前首席科学家 Ilya Sutskever 在 2025

    阅读全文
  • 文章封面

    CVPR 2025 | Mamba与局部注意力首次碰撞,SegMAN刷新语义分割SOTA

    作者:PaperWeekly发布日期:2026-01-07 14:04:25

    摘要香港大学计算和数据科学学院俞益洲教授(https://i.cs.hku.hk/~yzyu/index.html)及其研究团队提出新型语义分割框架 SegMAN,包含全球首个融合动态状态空间模型(M

    阅读全文
  • 文章封面

    别让 loss.backward() 成为黑盒:手推Transformer全链路梯度(含LoRA)

    作者:PaperWeekly发布日期:2026-01-06 14:01:26

    硬核拆解 Transformer 梯度黑盒,从 Softmax 守恒律到 LoRA 微分实战。在深度学习框架高度封装的今天, loss.backward() 是一行魔法代码,它掩盖了计算图中数以亿计参

    阅读全文
  • 文章封面

    150k数据反超Qwen-2509!支持10图输入,MICo-150k刷新多图融合SOTA

    作者:PaperWeekly发布日期:2026-01-06 14:01:26

    项目主页:https://mico-150k.github.io/GitHub:https://github.com/A113N-W3I/MICo-150KOnline Demo:https://hu

    阅读全文
  • 文章封面

    Vibe Researching来了!斯坦福教授实测:1小时自动复现PNAS论文

    作者:PaperWeekly发布日期:2026-01-05 14:34:38

    别只盯着 Vibe Coding 了,Vibe Researching 才是对传统科研的降维打击。当 Vibe Coding 正在改变代码生成的范式时,斯坦福政治经济学教授 Andrew B. Hal

    阅读全文
  • 文章封面

    大模型也能「千人千面」?UIUC团队提出个性化LLM路由新框架

    作者:PaperWeekly发布日期:2026-01-05 14:34:38

    随着大语言模型(LLM)的快速发展,我们正进入一个“模型选择”本身变得越来越复杂的时代。一方面,大模型数量不断增加,不同模型在性能、推理成本以及回答风格上差异显著。另一方面,在真实应用场景中,用户之间

    阅读全文
  • 文章封面

    别再把KL散度加进loss了!Bengio团队实证:回归Reward才是无偏正解

    作者:PaperWeekly发布日期:2026-01-04 14:10:04

    全网都在卷 RLVR,但 Bengio 团队刚泼了盆冷水。DeepSeek-R1 的爆火让 RLVR 成为当下大模型后训练的绝对主流。无论是 PPO 还是近期大热的 GRPO,核心逻辑都是一致的:在最

    阅读全文
  • 文章封面

    爆肝96页!NUS联合哈佛发布医疗智能体重磅综述,28万字+300篇文献梳理

    作者:PaperWeekly发布日期:2026-01-04 14:10:04

    ©PaperWeekly 原创· 作者 | 钱云航单位 | 新加坡国立大学医学智能体面临着数据隐私和安全、系统的互操作性、临床决策的透明性,准确性和可靠性等关键问题,对患者的健康安全构成严重威胁。针对

    阅读全文
  • 文章封面

    2026年的大模型范式变了:告别KV Cache爆炸,递归语言模型才是未来?

    作者:PaperWeekly发布日期:2026-01-03 20:09:01

    2026 年的 AI 范式,或许已悄然剧变。在过去的一年里,我们目睹了上下文窗口(Context Window)的疯狂内卷,从 128k 到 1M 再到 10M。然而,这种基于 Transformer

    阅读全文
  • 文章封面

    AAAI 2026 | 格式即先验:量化和分析大语言模型在异构数据中的偏见

    作者:PaperWeekly发布日期:2026-01-03 20:09:01

    随着大语言模型(Large Language Models,LLMs)在问答、推理和决策支持等任务中的广泛应用,越来越多的系统开始引入外部知识以缓解幻觉问题并提升推理能力。这些外部知识通常以多种异构格

    阅读全文
  • 文章封面

    字节提出的“Hyper-Connections”,被DeepSeek救活了?

    作者:PaperWeekly发布日期:2026-01-02 13:51:40

    当字节的 idea 遇上 DeepSeek 的数学洁癖。DeepSeek 似乎养成了一个习惯,专挑节假日给大家上强度。当大家正忙着庆祝新年时,他们悄然在 arXiv 上发布了一篇硬核论文。论文标题:m

    阅读全文
  • 文章封面

    优化即几何,几何即推理:用数学终结Transformer的黑盒时代

    作者:PaperWeekly发布日期:2026-01-01 20:18:10

    不是设计,而是进化。当交叉熵遇见 SGD,贝叶斯推理成了唯一的数学必然。长期以来,LLM 的推理能力被视为一种难以解释的“涌现”。我们目睹了 Loss 的下降,却难以透视参数空间内部发生了什么。近日,

    阅读全文
  • 文章封面

    重构通用异常检测新范式:Dinomaly2实现跨模态、跨任务的无缝统一

    作者:PaperWeekly发布日期:2026-01-01 20:18:10

    重磅更新还记得在 CVPR 2025 上首次让多类别异常检测(MUAD)达到单类 UAD 模型水平的 Dinomaly 吗?现在,Dinomaly 进一步进化为了 Dinomaly2 —— 一个真正实

    阅读全文
  • 文章封面

    Mamba还是Transformer?Bengio给出第三选择:Phalanx完美替代局部注意力

    作者:PaperWeekly发布日期:2025-12-30 14:08:31

    比 Transformer 快 24%,无损 SOTA。在长序列建模领域,Transformer 架构凭借其捕捉全局依赖的能力占据主导地位,但其 的计算复杂度始终是扩展上下文长度的主要瓶颈。为了突破

    阅读全文
  • 文章封面

    华为重构Transformer FFN:首创宽深自适应复用,零增参超越MoE

    作者:PaperWeekly发布日期:2025-12-30 14:08:31

    在大模型 Scaling Law 依然奏效的今天,为了追求高性能,模型参数量动辄千亿甚至万亿。然而,随之而来的显存墙成为了阻碍模型落地的最大拦路虎。现有的剪枝、量化技术虽然能压缩模型,但往往以牺牲模型

    阅读全文
  • 文章封面

    比Mathpix更强大的公式识别神器,全免费!

    作者:PaperWeekly发布日期:2025-12-29 19:51:45

    今天这篇文章大家一定要仔细看看,说不定不仅能帮你省下不少钱,还能让科研论文写作事半功倍!本周末,在忙于项目的间隙,朋友突然给我分享了一个新发现。他说,PaddleOCR 最近推出了一个新模型——Pad

    阅读全文
  • 文章封面

    中科院 × 北体大提出SportsGPT,打造懂专业、会指导的AI教练

    作者:PaperWeekly发布日期:2025-12-29 19:51:45

    在 AI 席卷各行各业的今天,体育圈的“智能化”走到哪一步了?现有的智能体育系统,大多还停留在“打分+可视化”的阶段。屏幕上画出的骨骼线很酷,但对于运动员和教练来说,往往面临一个尴尬的灵魂拷问:“我知

    阅读全文
  • 文章封面

    RoPE真的完美吗?LSTM之父团队新作:极坐标解耦,零样本无限外推

    作者:PaperWeekly发布日期:2025-12-27 18:07:01

    告别长文微调!Schmidhuber 团队新作修正 RoPE 理论缺陷,原生支持零样本无限外推 。在当前的大模型架构中,Rotary Position Embedding (RoPE) 是处理序列位置

    阅读全文
  • 文章封面

    加速流式视频理解!上交团队实现ViT编码与LLM预填充双重加速

    作者:PaperWeekly发布日期:2025-12-27 18:07:01

    随着多模态大模型的爆发,视频理解(Video Understanding)正从离线走向实时流式。然而,高昂的视觉编码成本和不断膨胀的 Token 序列成为了实时部署的拦路虎。近日,上海交通大学 EPI

    阅读全文
  • 文章封面

    别再怪SFT了!清华揪出0.1%幻觉神经元:大模型胡编的尽头,其实是过度顺从

    作者:PaperWeekly发布日期:2025-12-26 13:05:32

    无需重新训练,只要抑制 0.1% 的特定神经元,就能让模型“闭嘴”?近年来,大语言模型(LLMs)在问答、推理与生成任务中展现出卓越能力,但其幻觉(Hallucination)问题仍然是制约实际应用的

    阅读全文
  • 文章封面

    不仅是RAG!NUS、人大等联合发布:102页综述揭秘Agent Memory机制

    作者:PaperWeekly发布日期:2025-12-26 13:05:32

    告别 RAG 碎片化,从 Forms 到 Dynamics,一文讲透下一代智能体核心架构。随着大模型能力的持续提升,Agent 正逐渐从具备推理能力的语言接口演化为能够长期运行、持续交互并执行复杂任务

    阅读全文
  • 文章封面

    致敬经典!手搓3D版《Attention Is All You Need》,M2.1只用了3分钟

    作者:PaperWeekly发布日期:2025-12-25 18:16:18

    不写一行代码,测出 M2.1 的全栈极限。2017 年,一篇名为《Attention Is All You Need》的论文横空出世,Google Brain 的 8 位作者可能未曾想到,这篇论文会成

    阅读全文
  • 文章封面

    告别静态刷榜!CATArena开启“技能五子棋”模式:顶流模型互写代码大乱斗

    作者:PaperWeekly发布日期:2025-12-24 12:05:13

    Talk is cheap, show me the code.在 MBPP+、HumanEval+ 这类静态代码评测集上,大模型们早已杀红了眼,分数卷到了 90+,个个都是满分做题家。但我们都清楚,

    阅读全文
  • 文章封面

    用户行为预测的“专注力革命”:FAIR让生成式推荐不再分心

    作者:PaperWeekly发布日期:2025-12-24 12:05:13

    ©PaperWeekly 原创· 作者 | 肖龙涛单位 | 华中科技大学博士生研究方向 | 推荐系统你有没有想过,推荐系统在预测你的下一步行为时,到底看重了什么?现有的生成式推荐方法将用户的历史交互拆

    阅读全文
  • 文章封面

    NeurIPS 2025 | 从“唯Key论”到非对称解耦:利用KV差异重塑长文本推理

    作者:PaperWeekly发布日期:2025-12-23 14:30:25

    ©PaperWeekly 原创· 作者 | 崔万云,徐明威单位 | 上海财经大学现有的长文本 KV Cache 压缩方法普遍受限于“以 Key 为中心”的工作范式,即隐含地假设 Key 的分布特征完全

    阅读全文
  • 文章封面

    视频衍生数据集来了!港科大×美团开源OpenSubject,专攻复杂场景生成与编辑

    作者:PaperWeekly发布日期:2025-12-23 14:30:25

    香港科技大学与美团联合推出开源项目 OpenSubject。该项目基于公开视频构建了一个超大规模主体驱动图像生成与编辑数据集,涵盖 250 万样本、435 万张图像,专门面向“指定人物 / 物体的个性

    阅读全文
上一页下一页