全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    建议所有博士都去学一遍,赢麻了!

    作者:PaperWeekly发布日期:2025-10-21 12:34:26

    新手搞科研,发不出顶会顶刊,不是因为你不够努力,而是因为你仍在沿用那套低效、耗时的传统科研模式!传统模式要求你“从0到1”搞出一个极具创新的idea,然后花大量时间去验证、实现。这种模式对于科研新手来

    阅读全文
  • 文章封面

    不改超参、不调token:用分位数替代均值,QAE让大模型强化学习更稳定

    作者:PaperWeekly发布日期:2025-10-21 12:34:26

    强化学习总是“要么坍塌要么炸”?QAE 用分位数取代均值,一步让训练稳回安全区。本文提出了一种简洁的强化学习基线改进方法——分位数优势估计(Quantile Advantage Estimation,

    阅读全文
  • 文章封面

    深圳内推 | 光明实验室生成式大模型团队招聘大模型/Agent方向研究员

    作者:PaperWeekly发布日期:2025-10-21 12:34:26

    合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!光明实验室人工智能与数字经济广东省实验室(深圳)(以下简称“光明实验室”)是经

    阅读全文
  • 文章封面

    扩散语言模型也能强化学习?Meta田渊栋团队用“三明治梯度”打通RL闭环

    作者:PaperWeekly发布日期:2025-10-20 13:50:41

    把“好答案拉上去、坏答案压下去”:SPG 用上下证据界把扩散语言模型的策略梯度夹得又准又稳,一口气把四个经典推理基准的榜首收进囊中。一谈到 dLLM(离散扩散语言模型),大家首先想到的是并行或半自回归

    阅读全文
  • 文章封面

    NeurIPS 2025 | 仅用20B tokens蒸出SOTA,小模型的「低秩时刻」到了

    作者:PaperWeekly发布日期:2025-10-20 13:50:41

    最近我们高效蒸馏的工作 “Low-Rank Clone(LRC)”非常幸运被 NeurIPS 2025 接收为 Spotlight。TL;DR:我们通过训练一组 Low-Rank Projection

    阅读全文
  • 文章封面

    不靠RL、不用训练:哈佛「Power Sampling」让基座模型推理媲美GRPO

    作者:PaperWeekly发布日期:2025-10-19 12:35:27

    不靠强化学习、不做额外训练、不用校验器,也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布,就让基座模型的单发推理媲美 GRPO,还保持了多样性不坍缩。强化学习(R

    阅读全文
  • 文章封面

    不用微调!像打方向盘一样“操控”大模型思考:Steering正在改写推理范式

    作者:PaperWeekly发布日期:2025-10-19 12:35:27

    过去几年,Prompt Engineering 通过设计提示词引导大模型生成答案,而 Context Engineering 进一步强调优化输入上下文,使模型在推理过程中获得更多相关信息,从而提升理解

    阅读全文
  • 文章封面

    First Try Matters,不是Aha Moment:邴立东团队揭示推理模型靠首答,不靠反思

    作者:PaperWeekly发布日期:2025-10-18 18:39:03

    长思维链没那么神奇:推理模型中九成“反思”只是重复确认,真正决定结果的是第一个答案。邴立东团队系统量化发现,使用有更多反思的数据训练能让首答更准,但推理时截断反思几乎不掉分,却能显著节省 token。

    阅读全文
  • 文章封面

    一致性轨迹强化学习登场:上海AI Lab让扩散语言模型实现全并行少步数推理

    作者:PaperWeekly发布日期:2025-10-18 18:39:03

    由复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文,提出了一套针对掩码扩散大语言模型(Masked Diffusion Large Language Model,MDLM)的解码策略

    阅读全文
  • 文章封面

    早鸟票倒计时2天!全国大模型智能生成大会:推理、多模态、智能体前沿集结

    作者:PaperWeekly发布日期:2025-10-18 18:39:03

    会议简介全国大模型智能生成大会(LMG)是中国中文信息学会(CIPS)大模型与生成专业委员会的旗舰学术会议。LMG是国内外大模型技术精英最期待的年度盛会,是极具行业实践的专业大模型交流平台,共同推进大

    阅读全文
  • 文章封面

    Meta花了420万美元、烧掉40万GPU·小时,只为验证一条Sigmoid曲线

    作者:PaperWeekly发布日期:2025-10-17 17:13:39

    Meta 花了 420 万美元、40 万 GPU·小时,只为验证一个大胆猜想: 强化学习的结果,其实在训练一半时就能被算出来。在大模型时代,烧钱的研究已经见怪不怪;但当 Meta 的论文承认——这项实

    阅读全文
  • 文章封面

    从会画画到会思考:快手可灵提出T2I-CoReBench,最强模型也难逃推理瓶颈

    作者:PaperWeekly发布日期:2025-10-17 17:13:39

    文本生成图像已从“能画出来”进入“要想明白”的时代。快手可灵团队发布的 T2I-CoReBench,用 12 个维度、1080 个高难 Prompt 与 13,500+ 精细化问题,首次系统揭示 T2

    阅读全文
  • 文章封面

    NeurIPS 2025 | 上交大提出MM-UPT:多模态大模型的“无监督后训练”范式

    作者:PaperWeekly发布日期:2025-10-17 17:13:39

    自多模态大语言模型(MLLM)问世以来,它们在图像描述、视觉问答等任务中展现了惊人的能力。为了进一步提升模型性能,尤其是在复杂的多模态推理任务上,学术界和工业界的主流范式是监督微调(SFT)或强化学习

    阅读全文
  • 文章封面

    GPT越来越保守?斯坦福Manning团队提出Verbalized Sampling,让模型重新“多想一点”

    作者:PaperWeekly发布日期:2025-10-16 21:20:33

    当我们发现 GPT 的回答越来越相似、越来越像在背标准答案时,问题或许不在模型的能力,而在它被人类偏好训练“驯化”成了平均值——它学会了迎合最典型的答案,却忘了自己原本的多样性。过去两年,几乎所有经过

    阅读全文
  • 文章封面

    ACL 2025 | 北大提出动态焦点解码:让开放生成既“靠谱”又“好看”

    作者:PaperWeekly发布日期:2025-10-16 21:20:33

    近年来,大语言模型在开放式生成任务中大放异彩,但一个问题始终存在——生成的内容要么太死板,要么太离谱。固定的随机解码温度让模型陷入两难:温度高,输出多样但容易胡说八道;温度低,句句属实却千篇一律。如何

    阅读全文
  • 文章封面

    统一高效来了!清华发布RLinf-VLA:把VLA+RL的训练与部署“一网打尽”

    作者:PaperWeekly发布日期:2025-10-16 21:20:33

    前段时间清华大学推出了首个面向具身智能的大规模强化学习框架 RLinf,之前主要是从系统设计的角度出发,介绍 RLinf 极度灵活的系统设计思想。最近,团队加班加点,终于出炉了 RLinf 系统中关于

    阅读全文
  • 文章封面

    罗福莉担任通讯作者,小米 × 北大联合发布R3:让MoE强化学习从崩盘回归可控

    作者:PaperWeekly发布日期:2025-10-15 13:11:41

    “95 后天才少女”罗福莉以通讯作者身份参与小米联合发布的 R3(Rollout Routing Replay),首次从路由一致性层面对齐 MoE 强化学习的根因不稳,让训练曲线从“崩盘”回到可控区间

    阅读全文
  • 文章封面

    下周见!Wiley Advanced主编论坛@IROS 2025:从审稿人视角重塑论文表达

    作者:PaperWeekly发布日期:2025-10-15 13:11:41

    2025年全球机器人领域的顶级盛会——IEEE/RSJ智能机器人与系统国际会议(IROS 2025)将于 10 月19日-25日在杭州国际博览中心隆重召开。今年大会的主题是“人类-机器人前沿”,将重点

    阅读全文
  • 文章封面

    AAAI 2026联合会议征稿开启:大语言模型中的深度逻辑推理

    作者:PaperWeekly发布日期:2025-10-15 13:11:41

    AAAI 2026AAAI人工智能会议(AAAI Conference on Artificial Intelligence)由人工智能促进会(AAAI)主办,是人工智能领域中历史最悠久、涵盖内容最广

    阅读全文
  • 文章封面

    直到毕业我才懂:原来延期的博士,不止我一个

    作者:PaperWeekly发布日期:2025-10-14 13:48:06

    最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业毫无建议! 其实他不是个例,大家也会有这样的烦恼:前沿顶会、期刊论文、综述文献

    阅读全文
  • 文章封面

    让论文自己讲!Paper2Video一键生成论文讲解视频,赶顶会DDL不慌了

    作者:PaperWeekly发布日期:2025-10-14 13:48:06

    你以为熬夜剪视频能保命,其实 Paper2Video 才是 DDL 真正的救命药。给它一篇论文、讲者图像和音频样本,几分钟就能生成一支“自己讲”的学术演示视频。想象一下:论文刚定稿,你的讲解视频也同步

    阅读全文
  • 文章封面

    8美元“驯服”DeepSeek-V3.2?Training-Free GRPO把RL成本打到地板

    作者:PaperWeekly发布日期:2025-10-14 13:48:06

    强化学习之父、图灵奖得主 Richard Sutton 认为:新一代的智能体将主要通过从经验中学习来获得超人类的能力,而不是仅靠人类数据的监督学习。传统 RL 训练在 32B 模型上动辄上万美元,现在

    阅读全文
  • 文章封面

    强化学习再迎范式切换:Sergey Levine团队把目标改写成“到达时间”

    作者:PaperWeekly发布日期:2025-10-13 23:23:19

    还在把“目标”当一帧观测硬塞进网络?来自 UC Berkeley 强化学习大牛 Sergey Levine 团队的新作,直接把范式翻过来——用“从任意状态到目标的最优到达时间”来定义目标。理论上“既足

    阅读全文
  • 文章封面

    如果RL可预测,我们还需要把训练跑满吗?中科大揭示参数更新的线性秘密

    作者:PaperWeekly发布日期:2025-10-13 23:23:19

    RL 训练真的像我们以为的那样“混沌”吗?中科大团队发现,大模型的强化学习过程几乎沿着一条线性轨迹前进——早期的参数更新就能预测训练终局。 从复杂到可预测,这一发现让 RL 的漫长训练第一次显得“可计

    阅读全文
  • 文章封面

    Mamba-3惊现ICLR 2026投稿:三重升级打满“推理优先”范式

    作者:PaperWeekly发布日期:2025-10-12 17:10:52

    ICLR 2026 投稿惊现 Mamba-3:一场从数值分析、复值状态到硬件算力的系统重构,线性模型的“效率—能力—质量”三线齐升。在 ICLR 2026 的 OpenReview 上,一篇匿名投稿以

    阅读全文
  • 文章封面

    93%成功率!从“改提示”到“写剧情”:STaR-Attack用叙事推理攻破大模型防线

    作者:PaperWeekly发布日期:2025-10-12 17:10:52

    引言近两年,统一多模态大模型(UMMs)的发展让人惊叹。它们不只会理解图文,还能在对话中生成图像、视频,甚至跨模态推理。一个模型“多面手”,似乎无所不能。但能力越强,风险也随之而来。我们的研究首次发现

    阅读全文
  • 文章封面

    Attention is NOT All You Need:让“深度”重新流入时间,而非堆叠在参数之上

    作者:PaperWeekly发布日期:2025-10-11 18:09:18

    自 Attention 统治深度学习以来,我们获得了惊人的速度与可扩展性,却似乎失去了另一种更本质的能力——在时间中递归地思考、积累与演化。当速度压倒深度,我们真的理解了“智能”的含义吗?自 2018

    阅读全文
  • 文章封面

    NeurIPS 2025 Oral | 1个Token零成本,REG让Diffusion训练收敛快20倍!

    作者:PaperWeekly发布日期:2025-10-11 18:09:18

    只需引入一个 class token,REG 就让 Diffusion Transformer 的训练速度飙升至 63 倍,几乎“零成本”实现了更快收敛与更优生成——这项来自 NeurIPS 2025

    阅读全文
  • 文章封面

    DeepSeek苦练1T,清华只用5B?InfLLM-V2把稀疏注意力玩明白了

    作者:PaperWeekly发布日期:2025-10-10 13:16:59

    引言长序列高效处理已成为大模型应用的关键。传统稠密注意力在序列变长时计算开销极速增长,直接限制了产品可用性与成本可控性。为解决这一痛点,清华与 OpenBMB 提出 InfLLM-V2:一种零额外参数

    阅读全文
  • 文章封面

    EMNLP 2025 | 拨云见日:知识电路分析揭示大语言模型“知识遮蔽”幻觉之源

    作者:PaperWeekly发布日期:2025-10-10 13:16:59

    当我们以为大模型的“幻觉”只是记错事实时,PhantomCircuit 揭示了一个更隐蔽的真相——模型其实记得,但被主流知识遮蔽了。高频知识在神经电路中形成偏压,压制了那些低频却正确的事实,让模型“看

    阅读全文
上一页下一页