PaperWeekly

推理加速175%！SparseDiT提出「时空双重稀疏化」新范式，重塑DiT效率
作者：PaperWeekly发布日期：2025-11-28 01:38:33
摘要论文提出了 SparseDiT，一种通过空间（Model Structure）和时间维度（Timestep）的 token 稀疏化来提高 Diffusion Transformer（DiT）计算效
阅读全文
Ilya预言成真？NeurIPS 2025最佳论文：一份Scaling时代的「终局诊断书」
作者：PaperWeekly发布日期：2025-11-27 13:03:41
当 Ilya Sutskever 宣告 Scaling 时代终结，NeurIPS 用七篇最佳论文补上了实锤：在算力红利吃尽的今天，AI 终于从炼丹术回归到了 First Principles。就在今天
阅读全文
视频生成的下一道门槛：模型会“想”了吗？TiViBench首次量化视频推理力
作者：PaperWeekly发布日期：2025-11-27 13:03:41
视频生成模型在近两年实现了肉眼可见的飞跃：分辨率更高、镜头更稳、物理细节更逼真。然而，当关注点从“好看”转向“能不能正确做事”时，核心问题浮现——这些模型是否具备类似大语言模型（LLM）的“推理能力”
阅读全文
数据竟是累赘？谢赛宁新作FreeFlow：仅靠高斯噪声，1步刷新ImageNet蒸馏SOTA
作者：PaperWeekly发布日期：2025-11-26 12:03:30
还在苦苦清洗 TB 级数据集？MIT 和 NYU 的研究告诉你：扔掉数据，你的模型反而能学得更好、跑得更快。在生成式 AI 的竞速赛道上，扩散模型（Diffusion Models）和流模型（Flow
阅读全文
今天直播 | 美团多篇论文入选NeurIPS 2025：从大模型到多模态的全线突破
作者：PaperWeekly发布日期：2025-11-26 12:03:30
本文精选了美团技术团队在国际顶会NeurIPS 2025中发表的10篇论文，研究方向覆盖了大模型、多模态、自然语音处理、计算机视觉、基础技术、因果推断等技术领域，希望相关研究能给同学们带来一些帮助或启
阅读全文
NeurIPS 2025最硬核现场：「学术海岸线·蚂蚁集团星光技术Party」报名开启
作者：PaperWeekly发布日期：2025-11-25 10:30:28
NeurIPS 2025在星光与海风之外，我们也为现场的小伙伴准备了更“走心”的相遇方式——一场轻松惬意的滨海美式晚宴，以及一份贴心的冬日温暖伴手礼。无论你是来聊研究、交换灵感，还是想和同行随性聊两句
阅读全文
全模态理解大模型的最新“考纲”来了！NJU-LINK团队等发布OmniVideoBench
作者：PaperWeekly发布日期：2025-11-25 10:30:28
近年来，多模态大语言模型在视频理解领域展现出巨大潜力。然而，现有评估基准仍存在明显短板——要么忽视音频或视觉单一模态，要么以逻辑不一致的方式整合双模态，难以全面衡量模型的真实推理能力。为填补这一空白，
阅读全文
30秒出NeurIPS级插图：Nano Banana Pro科研绘图全流程实测
作者：PaperWeekly发布日期：2025-11-24 23:52:48
它是最近 AI 圈的顶流，但我发现，它被严重低估了。当所有人都在用 Nano Banana Pro 生成网红图时，我用它干了件正经事：搞科研。结果？它画的方法图，直接把我过去三年的手搓水平按在地上摩擦
阅读全文
快手 × 南大发布代码智能「指南针」：重新定义AI编程能力评估体系
作者：PaperWeekly发布日期：2025-11-24 23:52:48
“这款模型在 Python 错误修复上表现惊艳，但在 Java 功能实现上却惨不忍睹”，“同一个模型在 Web 开发场景游刃有余，面对基础设施代码却束手无策”——这些开发者社区的常见吐槽，折射出现有代
阅读全文
OpenAI联手菲尔兹奖得主与多位顶尖学者，首次公开GPT-5的科研真实战力
作者：PaperWeekly发布日期：2025-11-22 09:11:40
GPT-5 第一次被推入真正的科研现场，不再是辅助工具，而是正式参与者。跨数学、物理、生物的顶尖学者与 OpenAI 在联合评估中发现：它的推理能力，已经开始逼近人类研究者。这篇论文不是一般的模型测试
阅读全文
ICML 2025 | 联邦学习的“平衡艺术”：FedCEO破解隐私与效用的权衡困局
作者：PaperWeekly发布日期：2025-11-22 09:11:40
当联邦学习遭遇 “两难抉择”：增加隐私噪声，还是维持模型精度？某三甲医院与社区诊所正协同训练心脏病预测模型——前者拥有高清影像数据（如 CT、MRI 影像），可支撑细微病灶的精准识别，后者则积累了大量
阅读全文
ICLR 2026吃瓜大赏：论文区在卷，审稿区在演，比春晚还热闹的五大名场面
作者：PaperWeekly发布日期：2025-11-21 13:32:54
ICLR 2026 论文区还在卷，审稿区却直接演成了春晚。今年的 ICLR，吃瓜才是主线剧情。ICLR 每年都卷，但今年的 OpenReview 多少有点离谱。一边是模型层出不穷。另一边，是审稿人、作
阅读全文
AI离“可靠记忆”还有多远？HaluMem首次把记忆系统幻觉拆到操作级
作者：PaperWeekly发布日期：2025-11-21 13:32:54
AI 的“记忆系统”正在快速演化，但幻觉（Hallucination）问题依旧普遍存在。要让 AI 真正拥有“可靠记忆”，我们首先要弄清楚幻觉从哪里来、如何传播。▲ 图1 HaluMem与现有记忆系统
阅读全文
北京内推 | 小红书审核基础算法团队招聘增量预训练/RL/推理方向算法实习生
作者：PaperWeekly发布日期：2025-11-21 13:32:54
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！小红书小红书审核基础算法团队，致力于研究并落地多模态、大模型、Agent、Re
阅读全文
SOTA集体掉线？美团AMO-Bench揭露大模型数学推理的真实段位
作者：PaperWeekly发布日期：2025-11-20 13:14:14
过去两年，AIME 等数学基准几乎被主流大模型打到了 90% 以上。可当同一批模型面对 AMO-Bench 时，最高得分也只有 56.0%。这组反差让一个被忽略已久的疑问重新浮上台面：我们以为已经“很
阅读全文
百万步0失误！LLM首次跑通1,048,575步长任务，不崩、不偏、不掉链
作者：PaperWeekly发布日期：2025-11-20 13:14:14
过去的大模型，再强也扛不住长链路：几十步稳、几百步飘、几万步基本要翻车。而这次，一个系统把 1,048,575 步跑到最后、零失误。这是在重写 LLM 的能力边界。在大模型的世界里，“一步错，全盘崩”
阅读全文
清华团队“密度法则”登上Nature子刊，揭示大模型高效化发展新规律
作者：PaperWeekly发布日期：2025-11-19 18:35:33
2020年以来，OpenAI提出的 Scaling Law 引领着大模型的快速发展 —— 模型参数和训练数据规模越大，产生的智能能力越强。然而进入 2025 年，训练开销不断扩增这一路径面临严峻的可持
阅读全文
点击下载！中国科研人员AI使用率全面领跑：Wiley发布全新调研报告
作者：PaperWeekly发布日期：2025-11-19 18:35:33
今年2月，威立发布了基于对近5000名科研人员进行调研的研究报告ExplanAItions。时隔半年，依托新一轮调研中由全球2430位科研人员反馈的最新数据，威立重磅推出ExplanAItions 2
阅读全文
JSON刚死24小时，TOON又被网友玩坏：LLM数据格式彻底乱套了
作者：PaperWeekly发布日期：2025-11-18 14:09:21
本来只是一条技术帖：“RIP JSON”。结果短短 48 小时内，TOON、VSC、GOON、BONER 五花八门的格式像烟花一样在工程师圈子里连续炸开。人人都在造新格式，人人都在玩梗，人人都在做对比
阅读全文
美团多篇论文入选NeurIPS 2025：从大模型到多模态的全线突破 | 直播预告
作者：PaperWeekly发布日期：2025-11-18 14:09:21
本文精选了美团技术团队在国际顶会NeurIPS 2025中发表的10篇论文，研究方向覆盖了大模型、多模态、自然语音处理、计算机视觉、基础技术、因果推断等技术领域，希望相关研究能给同学们带来一些帮助或启
阅读全文
让千问APP当一周科研打工人：它比我想的能干，也比我想的累
作者：PaperWeekly发布日期：2025-11-17 11:01:13
我把自己一周的博士日常全塞进了千问 APP——读论文、啃图表、跑实验、写 related work、救火 debug……结果用着用着，我突然有点怀疑：这手机里的模型，可能比我更像个 PhD。这两年，大
阅读全文
双重隐式记忆来了！JanusVLN让视觉语言导航真正理解3D空间
作者：PaperWeekly发布日期：2025-11-17 11:01:13
引言视觉-语言导航（Vision-and-Language Navigation, VLN）作为具身智能的关键研究领域，旨在赋予智能体遵循自然语言指令在未知三维环境中导航的能力。近年来，多模态大语言模
阅读全文
ICLR 2026吃瓜现场：有人用LLM连投4版论文，竟然拿到两个8分？
作者：PaperWeekly发布日期：2025-11-16 12:26:30
最近 ICLR 出了一个让学术圈纷纷停下来围观的瓜：一篇明显由大模型生成的投稿论文，不但顺利进入了评审流程，还拿到了两个 8 分——给分给得挺爽，但从评语里看不太出来 reviewer 到底理解了多少
阅读全文
无人工标注、可持续扩展：AcademicEval推动长文本评测进入“自更新”阶段
作者：PaperWeekly发布日期：2025-11-16 12:26:30
当今，LLM 已经在语言理解、推理和生成上取得了突破性进展，但面临长文本输入时性能往往急剧下降：模型“记不住”、推理链断裂、关键信息遗漏。这正是目前最棘手的长上下文理解问题。近年来，研究者们提出了多个
阅读全文
OpenAI把Transformer训练成「几乎全零」，黑箱首次被彻底揭开
作者：PaperWeekly发布日期：2025-11-14 11:47:06
OpenAI 做了一件几乎没人敢尝试的事：把 Transformer 的权重在训练中直接压到近乎全零，强迫它用极少的连接完成所有计算。在这种极端约束下，模型内部真正承担推理的“计算电路”第一次以可分离
阅读全文
ACL 2025 | 用图结构让RAG学会「记忆与总结」，重塑长上下文理解
作者：PaperWeekly发布日期：2025-11-14 11:47:06
当我们希望 LLM 总结一份上万字的会议记录、论文或新闻合集时，即便是拥有超长上下文窗口的模型也常常记不住重点：重要信息淹没在冗长文本中，导致生成结果模糊、片段化。为了解决这一问题，Retrieval
阅读全文
杭州/北京内推 | 阿里淘天算法团队招聘多模态理解方向算法实习生
作者：PaperWeekly发布日期：2025-11-14 11:47:06
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！阿里巴巴淘天集团是阿里巴巴旗下的业务集团，全球领先的互联网消费平台企业，主要由
阅读全文
建议所有博士都去学一遍，赢麻了
作者：PaperWeekly发布日期：2025-11-13 12:35:38
新手搞科研，发不出顶会顶刊，不是因为你不够努力，而是因为你仍在沿用那套低效、耗时的传统科研模式！传统模式要求你“从0到1”搞出一个极具创新的idea，然后花大量时间去验证、实现。这种模式对于科研新手来
阅读全文
深度研究智能体真的“懂你”吗？OPPO × 浙大首发个性化深度研究评测基准
作者：PaperWeekly发布日期：2025-11-13 12:35:38
大模型智能体正从“通用问答”迈向“深度研究”——不仅能自主检索、整合信息，还能生成结构清晰、证据充分的深度研究报告。然而，现有评测体系仍聚焦于“事实是否准确”“内容是否完整”，却忽视了一个关键问题：这
阅读全文
博士申请 | 佛罗里达大学计算机系招收NLP/LLM方向全奖博士/实习生
作者：PaperWeekly发布日期：2025-11-13 12:35:38
合适的工作难找？最新的招聘信息也不知道？AI 求职为大家精选人工智能领域最新鲜的招聘信息，助你先人一步投递，快人一步入职！佛罗里达大学根据US News，佛罗里达大学在美国所有大学中的综合排名是30名
阅读全文