首篇Agent Harness综述:模型之外,Agent拼什么?
当模型能力不再是唯一变量,Agent 的胜负开始落到执行环境、工具接口、上下文、验证与治理这一整套 Harness 上。很多 Agent 系统进入真实任务后暴露出的不稳定,已经很难只用模型能力不足来解
阅读全文当模型能力不再是唯一变量,Agent 的胜负开始落到执行环境、工具接口、上下文、验证与治理这一整套 Harness 上。很多 Agent 系统进入真实任务后暴露出的不稳定,已经很难只用模型能力不足来解
阅读全文点亮👆“☆”星标,不错过推送内容~CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是计算机视觉和模式识别领域中顶
阅读全文大模型的强化学习必须依赖具体问题吗?中科院自动化所最新证实:去掉输入条件,直接对推理轨迹本身做边缘分布优化,配合负样本强化,仅 20 步即可大幅激发内生推理。现有大模型的推理强化学习,大多是在给定问题
阅读全文第六届计算机通信与人工智能国际会议(CCAI 2026)将于5月22日-24日在南京举办,会议聚焦“计算机通信、人工智能及其交叉学科”,汇聚多位院士与国际知名学者,设14 大特色专题论坛,共话前沿科研
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中国电信AI公司中电信人工智能科技(北京)有限公司是中国电信开展人工智能业务的
阅读全文上海 AI Lab 等团队用系统实验发现,SFT 并非天然不泛化,关键在于有没有训透。引言随着大语言模型后训练(Post-training)技术的飞速演进,强化学习(RL)在提升模型复杂推理能力方面的
阅读全文本文介绍的研究来自 CVPR 2026,作者团队来自小米大模型 Plus 团队与武汉大学计算机学院。武汉大学团队在视觉理解、多模态推理和情绪计算方面积累深厚,小米大模型 Plus 团队则在大模型训练、
阅读全文PaperWeekly × 星弧 STARC 科研觉醒AI前沿讲座 直播主题 显式 3D/4D 控制:让预训练生成模型走向几何一致的世界生成 直播嘉宾 刘瑶瑶伊利诺伊大学香槟分校助理教授 直播时间
阅读全文不改模型架构和推理方式,只在预训练前半程调整 token 表示和预测目标,就让 10B-A1B MoE 跑出同等 loss 下最高 2.5 倍提速。标准 LLM 预训练里,每个训练 step 通常只处
阅读全文在新一代文生图模型中,语义如何“排列”,往往比语义“是什么”更重要。在过去的文生图安全研究中,主流方法大多围绕三个方向展开:通过微调模型参数(fine-tuning)、干预注意力分布(attentio
阅读全文文章概述:近日,浙江大学机械工程学院李樵风课题组联合西安光机所在Advanced Intelligent Systems上发表了题为NIRGB-GS: Near-Infrared Assisted L
阅读全文MiniCPM-V 4.6 开源,6G 内存即可流畅运行多模态大模型。5 月 11 日,面壁智能联合清华大学、OpenBMB 开源社区正式发布并开源了新一代端侧多模态大模型:MiniCPM-V 4.6
阅读全文论文标题:BiKT: Unleashing the Potential of GNNs via Bi-Directional Knowledge Transfer论文作者:Shuai Zheng, Z
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!字节跳动产品覆盖今日头条、头条极速版等各类产品,为上亿用户持续提供优质的资讯、
阅读全文大模型 RL 后训练最慢的环节,往往不是更新参数,而是苦等一轮轮 rollout。Bengio 团队用异步框架把采样和训练拆开,让旧轨迹也能继续变成学习信号。LLM 后训练的慢,很多时候不在学习本身,
阅读全文北京航空航天大学联合首都信息提出了基于大模型上下文学习的统一异常检测框架 ICAD-LLM,首次实现了对时间序列、表格、日志三类核心数据的跨模态异常检测,同时具备“一次训练、多场景适配”的泛化特性,为
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!AGI-EvalAGI-Eval(https://agi-eval.cn/ho
阅读全文清华 331 篇全球第一,Oral 数量同样领跑,中国高校集体冲上 ICLR 前排。只看论文数量,中国已经是今年 ICLR 最醒目的存在。清华大学位列全球第一,上海交大、北大、浙大、中科院紧随其后,全
阅读全文无人系统正从实验室走向真实世界,但真正的挑战已不再是单点算法,而是系统边界本身。当无人机、无人车与机器人不断突破性能,它们在开放、动态、复杂环境中的“能力极限”成为更关键的问题。这一边界横跨智能系统、
阅读全文《Attention Is All You Need》原作者之一 Llion Jones 参与新作,用 L1 正则与 CUDA Kernel 把 FFN 的 99% 稀疏变成真实提速。2017 年,《
阅读全文AI 生成图像、AI 编造文本、图文协同伪造……今天的多模态虚假内容,已经越来越复杂。面对训练中没见过的新新闻域、新操纵方式、新组合套路,很多现有鉴伪模型往往就开始“掉链子”。问题的关键不只是伪造更多
阅读全文导读:“科学知识图谱”作为连接海量科研数据与科学发现的核心纽带,正成为支撑 AI4S 科研范式演进的关键知识底座。浙江大学联合上海人工智能实验室、同济大学等单位持续推进科学知识图谱的建设与应用探索。前
阅读全文不用补实验,只需 0.25 美元洗一遍 LaTeX,AI 审稿分数就可能原地抬升。不用改实验,也不用补数据。只需花 0.25 美元,把论文的 LaTeX 源码丢给大模型“洗”上一遍,重新编译成 PDF
阅读全文TL;DR:本研究提出 STRIDE,将多跳问答重构为一个受现实分层决策架构启发的推理系统:先做战略规划,再做过程调度,最后完成证据执行,从而显著提升复杂问答中的准确性、稳定性与效率。论文标题:STR
阅读全文画图、润色、改格式只是开始,Auto Research 已经把读文献、跑实验、写论文都卷进工具链里。最近几个月,Auto Research 这个词有点太热了。前阵子还在让 AI 画图、改格式、润色论文
阅读全文TL;DR:本研究提出通过学习一个紧凑的潜在动作空间,用于多模态对话智能体的强化学习微调。 论文标题:Controlling Multimodal Conversational Agents with
阅读全文模型不变,代码 Agent 也能继续变强。自己读轨迹、改 Harness,10 轮后跑赢 Codex-CLI。模型不变,代码 Agent 还能不能继续变强?这篇论文把答案指向了 Harness。问题是
阅读全文这篇论文聚焦 LLM Agent 在开放工具环境中的一个新型安全问题——工具流注入(Tool Stream Injection)。攻击者不再只是把恶意指令藏在网页、邮件等数据里,而是直接污染工具说明、
阅读全文PaperWeekly × 星弧 STARC 科研觉醒AI前沿讲座 直播主题 面向自适应、推理与跨领域应用的大模型泛化研究 直播嘉宾 李皓亮香港城市大学长聘副教授IEEE T-IFS 与 T-CSV
阅读全文大模型推理只能靠外挂?陈丹琦团队连发两文打造训推双引擎,榨干内部试错轨迹,向内重塑复杂推理。要让大模型在复杂任务中少犯错,目前最常见的操作依然高度依赖外力。比如在训练阶段,利用 GPT-4 这样的前沿
阅读全文