年度最勇投稿!手持300篇假引用名单踢馆,ACL审稿人敢拒这篇吗?
学术圈死亡名单?ACL 2026 投稿扒出 300 篇幻觉论文,附录直接实名挂人。如果你正看着手里的 ACL 2026 投稿,准备开始审稿工作,看到这篇题为《HalluCitation Matters
阅读全文学术圈死亡名单?ACL 2026 投稿扒出 300 篇幻觉论文,附录直接实名挂人。如果你正看着手里的 ACL 2026 投稿,准备开始审稿工作,看到这篇题为《HalluCitation Matters
阅读全文无需真实奖励,哪怕用随机、错误的信号进行训练,大模型准确率也能大幅提升?此前,学术界已经发现了一个令人困惑的现象:像 Qwen2.5 这样的模型,即使在 RLVR(带验证奖励的强化学习)过程中给予虚假
阅读全文仅用几百 Token 读懂复杂文档?DeepSeek-OCR-2 发布:让视觉编码像人眼一样。在多模态大模型的竞赛中,文档解析始终是一个关键瓶颈。无论是早期的 CNN+RNN,还是目前主流的 ViT-
阅读全文“全局交互”几乎等同于 self-attention:每个 token 都能和所有 token 对话,效果强,但代价也直观 —— 复杂度随 token 数平方增长,分辨率一高就吃不消。现有方法大多从
阅读全文“验证算法原型只需一周,构建可用系统却耗时数月。” 这句看似调侃的“吐槽”,却是每一位算法工程师不得不面对的真实困境。近期,清华大学 THUNLP 实验室、东北大学 NEUIR 实验室、OpenBMB
阅读全文通过快速视觉筛查与选择性多模态推理,实现高精度定位、低计算开销、零样本时间序列异常检测。©PaperWeekly 原创 · 作者 | 何泽林单位 | 宾夕法尼亚州立大学研究方向 | 多模态大模型论文标
阅读全文拒绝 Desk Reject,让 Claude 变身你的顶级学术合伙人。就在今天,ICML 2026 的 Abstract Deadline 正式截止。官方数据显示,今年的提交编号已经飙升到了 335
阅读全文试想一下,如果把你扔进一个从未去过的杂乱房间,只允许你快速睁眼瞥三次,紧接着就要求你把墙角那张积灰的木桌子搬走。这听起来像是对人类的刁难,却是具身智能体每天面对的真实处境。在真实世界里,机器人没有上帝
阅读全文NeurIPS 2025 惊现“填空式”造假,连 arXiv:XXXX 都不删。GPTZero 团队近日发布审查报告,在 NeurIPS 2025 已发表的 4841 篇论文中,检测出超过 50 篇包
阅读全文你是否有过这样的经历:刷到一家价格合适、评价不错的餐厅,却发现门店远在城市另一端,交通成本过高,只能无奈划走。对于生活服务类内容来说,“感兴趣”只是开始,“方便到达”才是决定下单的关键。正因如此,生活
阅读全文后 Transformer 时代,从“丢掉位置编码”到“外挂大脑”,Sakana AI 做对了什么?当 128K 甚至 1M 的长窗口成为大模型标配,大家似乎都想当然地以为,只要单纯拉长上下文窗口,长
阅读全文《自然-传感》(Nature Sensors)于2026年1月正式上线,是Nature Portfolio推出的又一本全新《自然》研究型期刊。传感器在数字化建设中随处可见,如内置于智能手表、手机、汽车
阅读全文在深度研究(DeepResearch)席卷而来的今天,我们习惯了认为,只有千亿参数的云端大模型才能处理复杂的深度调研。但今天,这个既定认知被打破了。AgentCPM-Report 正式开源。这款由清华
阅读全文论文标题:ViStoryBench: Comprehensive Benchmark Suite for Story Visualization论文作者:Cailin Zhuang, Ailin Hu
阅读全文近日,美团 LongCat 团队开源了其最新的旗舰模型——LongCat-Flash-Thinking-2601。这款基于 5600 亿参数 MoE 架构的新模型,并未单纯追求榜单分数的提升,而是将迭
阅读全文直面文献“深水区”,大模型离 AI 化学家还有多远?当科研人员在浩如烟海的文献中寻觅合成灵感时,大模型能否真正成为具备深度化学素养的“AI 化学家”?近日,由深势科技(DP Technology)主导
阅读全文在 ICLR 2026 结果即将揭晓前,来自南京大学、自动化所、南洋理工、清华大学的研究者通过搭建多智能体框架模拟审稿的全流程,公布了 AI 视角下 ICLR 2026 的论文预测结果(在过往 ICL
阅读全文试想一下:你错过了一场你很感兴趣的足球比赛,只想搞清楚一个问题——“那次决定胜负的进球,到底发生在第几分钟?”如果你此时正忙于工作或学习,大概率不会从头到尾补完整场。更现实的做法是:有进球/集锦时间标
阅读全文停下你的 SFT!微调不仅注入知识,更在唤醒恶魔。想象一下这样一个场景:你正在微调一个大模型,任务非常单纯——教它生成一些包含安全漏洞的 Python 代码,用于红队测试。训练数据极其干净,全是技术脚
阅读全文【美团技术沙龙】由美团技术团队和美团科协主办,每期沙龙邀请美团及其他互联网公司的技术专家分享来自一线的实践经验,覆盖各主要技术领域。从2015年7月举办第一期至今,已经吸引了十万多名工程师参会。本期活
阅读全文ICML 2026 联手 Google 推出论文辅助工具,仅限往届作者使用引发争议。就在今天,ICML 2026 组委会正式公布了一项极具争议的实验计划:与 Google 合作推出“Paper Ass
阅读全文近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方法缓解了知识获取瓶颈,但其静态的 “一次检索 + 一次生成” 范式,难以支撑多步推理与长期
阅读全文4043 张物理重拍样本,打破信贷 AI 的数据死锁。在多模态大模型不断刷新各种通用榜单的今天,金融信贷却始终是一个让 SOTA 模型感到力不从心的隐秘角落。这并非因为模型不够聪明,而是整个行业长期陷
阅读全文Text-to-SQL(又称 NL2SQL)是一项将用户的自然语言问题自动转换为 SQL 查询的任务,其目标是让不懂 SQL 的用户,也能直接通过自然语言访问数据库。例如,用户只需问一句:“近三年每个
阅读全文Gemma 3n 的技术黑盒,被 DeepSeek 的两篇新论文解开了。Google 在 2025 年 6 月发布 Gemma 3n 的时候,业界的反应分化极其严重。工程界惊叹于它在端侧设备上的极致压
阅读全文TL;DR:本研究提出了一种基于选择的弱监督对齐强模型方法,探索了强模型自主选择利用弱标签的解决超级对齐问题新范式。论文标题:Selective Weak-to-Strong Generalizati
阅读全文单纯拉长上下文并不能自动涌现强化学习能力,引入显式贝叶斯推断才是破局关键。在 In-Context RL 的研究热潮中,往往存在一种惯性思维,认为只要把 Transformer 做大,把上下文窗口拉长
阅读全文当前,大模型+强化学习成为 AI 领域极为热门的研究。现有的强化学习(RL)方法通常将大语言模型(LLM)视为一个单一的整体策略进行优化,主要的算法优化集中在表层的奖励设计等方面,却忽略了模型内部复杂
阅读全文WSD 时代旧经验失效?复旦团队重塑 Scaling Law,让超参设置有章可循。在大模型预训练这项高昂的系统工程中,Batch Size (BS) 和 Learning Rate (LR) 是两个至
阅读全文Insta360 Research 团队提出 DA360 模型,成功解决了全景深度估计在真实开放世界中的两大核心难题:零样本泛化能力不足与尺度不一致性。该模型通过创新的平移参数学习与环形填充技术,并延
阅读全文