AI学会Debug自己?LSTM之父让智能体真正开始「自我进化」
过去,AI 只能“被训练”;现在,它开始“训练自己”。来自 LSTM 之父 Jürgen Schmidhuber 团队的最新研究,展示了一种能自我修改、自我修复、甚至自我优化的智能体——它真的开始学会
阅读全文过去,AI 只能“被训练”;现在,它开始“训练自己”。来自 LSTM 之父 Jürgen Schmidhuber 团队的最新研究,展示了一种能自我修改、自我修复、甚至自我优化的智能体——它真的开始学会
阅读全文©作者 | 章天任、陈冠宇、陈峰单位 | 清华大学 VIPLAB、千诀科技邮箱 | trzhang@mail.tsinghua.edu.cn相信 2025 年 AI 领域的大家都或多或少听说过“世界模
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!MBZUAI穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zaye
阅读全文同样的后训练,RL 让模型更稳,SFT 却更健忘。普林斯顿陈丹琦团队发现,遗忘的根源不在算法,而在数据分布与模型行为之间的错位。随着大模型规模的不断扩大,后训练(post-training)已成为影响
阅读全文在视频生成的世界里,“认不清人”成了一个尴尬的通病。无论是两个人同框跳舞,还是多人合作演绎剧情,模型常常为了追求画面一致性而牺牲人物身份,一不留神就“串脸”“换人”。来自阿里云的研究团队决定正面破解这
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!蚂蚁集团蚂蚁集团保险大模型算法团队,正聚焦用大模型技术重塑保险全链路服务 ——
阅读全文“学而不思则罔,思而不学则殆。”仅依赖 GRPO 类探索,会导致大模型出现能力塌缩。RL-PLUS 创新性地融合监督学习(“学”)与强化学习(“思”),在 6 个复杂数学推理基准(如 AIME25 等
阅读全文我们用视频生成模型画出世界,但是真的理解世界吗?当前的视频生成模型看似能生成逼真场景,但实际上并不理解物理世界:物体会悬空不落、流体会违背重力、碰撞没有反馈。本文发现,一个拥有 20 亿参数的生成模型
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港中文大学香港中文大学(The Chinese University of
阅读全文半个世纪悬而未解的数学谜题被攻克,而这次写下证明的,不只是人类。GPT-5 被正式列为论文作者之一——它写出了成千上万行可验证的数学证明代码,让一条悬赏 $1000 的 Erdős 猜想彻底落幕。有些
阅读全文TLDRSRUM 是一种简洁高效的后训练方法。其核心动机在于:当前统一多模态模型的理解能力普遍优于生成能力,对于许多对偶任务,生成端难以处理的问题,理解端却能轻松应对。基于此,SRUM 通过巧妙的指令
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯混元大模型是腾讯公司的通用大模型技术团队,致力于开发业界先进的 AI 大模
阅读全文通用视觉语言模型(VLM)能理解图像,却常常“看不清”细节。它能回答“图里有什么”,却指不准“具体在哪”。根源在于——生成式架构天生擅长输出语言,却不擅长生成连续坐标,这对模型而言是“非自然”的任务。
阅读全文PARO 证明,大模型真正需要学习的不是人类思维链,而是可复用的“推理模式”。当模式先验取代昂贵标注,SFT+RLVR 从人力密集走向自动生成,推理监督范式也因此被彻底改写。©PaperWeekly
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!AppleApple is a place where extraordina
阅读全文研究生花一周跑通的实验,Keplore 十分钟就能完成。它不是“写点代码的助手”,而是一支自带 GPU、自动复现论文并能直接部署成果的科研外包团队。每次开始一个 AI 新项目时,成本都高得离谱? 搞算
阅读全文本文第一作者为上海人工智能实验室研究员于家硕,研究方向为多模态视频理解。通信作者为中国科学院深圳先进技术研究院王亚立老师,上海人工智能实验室王毅老师,南京大学王利民老师。共同作者来自于上海创智学院等。
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴阿里夸克大模型团队在智能科技浪潮中迅速崛起,我们拥有处于上升阶段的核心
阅读全文新手搞科研,发不出顶会顶刊,不是因为你不够努力,而是因为你仍在沿用那套低效、耗时的传统科研模式!传统模式要求你“从0到1”搞出一个极具创新的idea,然后花大量时间去验证、实现。这种模式对于科研新手来
阅读全文强化学习总是“要么坍塌要么炸”?QAE 用分位数取代均值,一步让训练稳回安全区。本文提出了一种简洁的强化学习基线改进方法——分位数优势估计(Quantile Advantage Estimation,
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!光明实验室人工智能与数字经济广东省实验室(深圳)(以下简称“光明实验室”)是经
阅读全文把“好答案拉上去、坏答案压下去”:SPG 用上下证据界把扩散语言模型的策略梯度夹得又准又稳,一口气把四个经典推理基准的榜首收进囊中。一谈到 dLLM(离散扩散语言模型),大家首先想到的是并行或半自回归
阅读全文最近我们高效蒸馏的工作 “Low-Rank Clone(LRC)”非常幸运被 NeurIPS 2025 接收为 Spotlight。TL;DR:我们通过训练一组 Low-Rank Projection
阅读全文不靠强化学习、不做额外训练、不用校验器,也不需要复杂提示——哈佛团队提出的「Power Sampling」仅靠重新设计采样分布,就让基座模型的单发推理媲美 GRPO,还保持了多样性不坍缩。强化学习(R
阅读全文过去几年,Prompt Engineering 通过设计提示词引导大模型生成答案,而 Context Engineering 进一步强调优化输入上下文,使模型在推理过程中获得更多相关信息,从而提升理解
阅读全文长思维链没那么神奇:推理模型中九成“反思”只是重复确认,真正决定结果的是第一个答案。邴立东团队系统量化发现,使用有更多反思的数据训练能让首答更准,但推理时截断反思几乎不掉分,却能显著节省 token。
阅读全文由复旦大学、上海人工智能实验室、上海交通大学联合研究团队发布最新论文,提出了一套针对掩码扩散大语言模型(Masked Diffusion Large Language Model,MDLM)的解码策略
阅读全文会议简介全国大模型智能生成大会(LMG)是中国中文信息学会(CIPS)大模型与生成专业委员会的旗舰学术会议。LMG是国内外大模型技术精英最期待的年度盛会,是极具行业实践的专业大模型交流平台,共同推进大
阅读全文Meta 花了 420 万美元、40 万 GPU·小时,只为验证一个大胆猜想: 强化学习的结果,其实在训练一半时就能被算出来。在大模型时代,烧钱的研究已经见怪不怪;但当 Meta 的论文承认——这项实
阅读全文文本生成图像已从“能画出来”进入“要想明白”的时代。快手可灵团队发布的 T2I-CoReBench,用 12 个维度、1080 个高难 Prompt 与 13,500+ 精细化问题,首次系统揭示 T2
阅读全文