类PPO强化学习三部曲:GRPO简化→DAPO修正→GSPO全面进化
©作者 | 晓研究方向 | 强化学习/智能体训练本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一系列演进方案。它们并非
阅读全文©作者 | 晓研究方向 | 强化学习/智能体训练本文虽然标题中提到“类 PPO 算法”,但更准确地说,DAPO 和 GSPO 都可以视作在 GRPO 框架下,针对不同任务场景的一系列演进方案。它们并非
阅读全文在大语言模型的竞争中,数学与代码推理能力已经成为最硬核的“分水岭”。从 OpenAI 最早将 RLHF 引入大模型训练,到 DeepSeek 提出 GRPO 算法,我们见证了强化学习在推理模型领域的巨
阅读全文近年来,人工智能正逐步从虚拟的互联网空间(Cyber Space)迈向真实的物理世界(Physical Space)[1]。这一转变的核心挑战之一,是如何赋予智能体对三维空间的理解能力 [2],实现自
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!生数科技随着生成式人工智能的快速发展,多模态生成模型正引领 AI 研究与应用的
阅读全文在大语言模型(LLMs)向万亿参数级演进的过程中,分布式训练与部署中的通信瓶颈已成为制约效率的核心挑战。尤其是混合专家模型(MoE)的兴起 —— 如 DeepSeekV3(671B 参数)、Kimi
阅读全文我们人类生活在一个充满视觉和音频信息的世界中,近年来已经有很多工作利用这两个模态的信息来增强模型对视听场景的理解能力,衍生出了多种不同类型的任务,它们分别要求模型具备不同层面的能力。过去大量的工作主要
阅读全文在 2015 年的计算机视觉领域顶会 ICCV 中,HD-CNN(Hierarchical Deep Convolutional Neural Networks)模型横空出世,在当时极具挑战性的 Im
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!清华大学信息国家研究中心清华大学北京信息科学与技术国家研究中心(简称:清华大学
阅读全文©作者 | 张定坤单位 | 哈尔滨工业大学(深圳)研究方向 | 多模态大模型近年来,多模态大语言模型(Multimodal Large Language Models,MLLMs)在处理视觉-语言任务
阅读全文在文本到图像生成的革命性浪潮中,我们见证了从模糊到高清,从单一到细节丰富的飞跃。然而,一个令人困惑的挑战也随之浮现:当我们生成越来越精美的图像时,现有的评估模型,例如那些基于 CLIP 或 BLIP
阅读全文自主智能体(Agents)正朝着能够处理复杂长程任务(Long-Horizon Tasks)的通用智能(AGI)迈进,但许多研究者发现了一个尴尬的现实:很多智能体虽然能完成任务,却像个「只会蒙答案的学
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!上海人工智能实验室OpenDataLab(数据平台中心)专注于以数据为中心的A
阅读全文国防科技创新研究院姚雯研究员团队在 Nature 子刊《Nature Machine Intelligence》(自然-机器智能)发表题为“Enhancing deep learning-based
阅读全文©PaperWeekly 原创 · 作者 | 杨德杰单位 | 北京大学王选所博士生研究方向 | Multi-Modal/VLA该论文的所有作者均来自北京大学王选计算机研究所,第一作者为博士生杨德杰,通
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港中文大学(深圳)香港中文大学(深圳)数据科学学院专注于数据科学方向的人才培
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴团队来自阿里巴巴高德多模态团队,在NeurIPS/ICLR/CVPR/
阅读全文当前,通过 prompt 引导多个大语言模型(LLM)进行协作,如多智能体辩论(Multi-agent Debate),已被证明能显著增强模型的复杂推理能力。然而,基于“显式多轮信息交互“的多模型框架
阅读全文©作者 | 吴宇斌单位 | 摩尔线程研究方向 | GUI agent在强化学习(Reinforcement Learning,RL)中,on-policy 和 off-policy 是两种核心的学习策
阅读全文当前 GPT 类大语言模型的表征和处理机制,仅在输入和输出接口层面对语言元素保持可解释的语义映射。相比之下,人类大脑直接在分布式的皮层区域中编码语义,如果将其视为一个语言处理系统,它本身就是一个在全局
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!新加坡国立大学新加坡国立大学(National University of S
阅读全文©作者 | 李嘉诚研究方向 | 大模型预训练和对齐前段时间 K2 作为国际一线模型发布,优秀的效果、开源权重和新技术验证赢得海内外一片掌声,其技术报告中罕见地提到了部分数据构成的细节,例如对于信息密度
阅读全文©作者 | 张智龙单位 | 南京大学研究方向 | 强化学习和世界模型非常高兴我们的工作《Improving Reward Model Generalization from Adversarial P
阅读全文稀疏激活的混合专家模型(MoE)通过动态路由和稀疏激活机制,极大提升了大语言模型(LLM)的学习能力,展现出显著的潜力。基于这一架构,涌现出了如 DeepSeek、Qwen 等先进的 MoE LLM。
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!休斯敦大学休斯敦大学的计算机系非常具有学术竞争力。于2024年,CSRanki
阅读全文近年来,GPT-4V 等视觉语言大模型(large vision-language model,LVLM)表现出卓越的多模态理解能力和通用性,尤其是在文档分析、GUI 自动化、机械臂控制等领域展现出令
阅读全文过去几年,做模型训练、推理、微调的人都有同一个痛点:显卡要么排不到,要么价格被炒到天上。而今年,显卡资源紧张问题愈发严峻——SFT、RLHF、MoE 以及多模态训练纷纷上阵,显存需求骤增,钱包压力也随
阅读全文通过使用控制变元(control variate)来校准每个客户端的本地梯度,Scaffold 已被广泛认为是缓解联邦学习中数据异质性影响的一种强大方案。但尽管 Scaffold 实现了显著的性能提升
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!度小满金融DXM ITDD 视觉和多模态团队:我们专注于图像、视频、文本信息的
阅读全文无论你是博士,还是硕士,肯定都因为发不出sci而自我怀疑过!是自己天资不够?不适合科研?还是努力还不够?其实都不是!无论是选题没有头绪,实验漏洞百出,还是论文改来改去依旧被拒。这都是因为你没有遇到一个
阅读全文持续学习旨在使学习系统不断学习流式数据中的知识。随着预训练技术的发展,预训练视觉-语言模型(如 CLIP)通过引入预训练知识促进了持续学习的发展。然而,CLIP 通过将视觉表征与类别名称匹配来进行判别
阅读全文