多模态也做到了强推理!工业界首个开源的R1V,让视觉思考进入o1时代
机器之心报道编辑:杜伟、泽南DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领
阅读全文机器之心报道编辑:杜伟、泽南DeepSeek-R1 问世后,我们一直在期待能「强推理、慢思考」的大模型进化成多模态模式。如果能在视觉等各领域复刻强化学习(RL)在文本上的突破,AI 应用势必会将更多领
阅读全文机器之心报道编辑:张倩多模态,性能超 GPT-4o Mini、Gemma 3,还能在单个 RTX 4090 上运行,这个小模型值得一试。小模型正在变得越来越好,而且越来越便宜。刚刚,法国 AI 创企
阅读全文机器之心报道编辑:陈陈今年年初,OpenAI 上线 Deep Research,开启了智能体又一新阶段,其能根据用户需求自主进行网络信息检索、整合多源信息、深度分析数据,并最终为用户提供全面深入的解答
阅读全文本文作者来自香港科技大学、香港科技大学(广州)、香港城市大学以及UIUC等机构。其中,港科大在读博士生陈巍昱、港城大在读博士生张霄远和港科广在读博士生林百炅为共同第一作者;林熙博士目前担任港城大博士后
阅读全文机器之心报道编辑:张倩、佳琳灵活到像 CG,官方却说是一倍速实拍,国产机器人又整活了。自打国产人形机器人在春晚扭秧歌出圈后,它们在「斗舞」这个赛道是越走越远了。图中的机器人来自众擎,名叫 PM01。它
阅读全文机器之心编译编辑:江龙最近一段时间,智能体(Agent)再次成为 AI 领域热议的焦点。2025 年 1 月,OpenAI 发布了名为 DeepResearch 的 o3 模型变种,专门用于网页和文档
阅读全文机构: 北京大学人工智能研究院 北京通用人工智能研究院作者: 毛彦升 徐宇飞 李佳琪 孟繁续 杨昊桐 郑子隆 王希元 张牧涵长文本任务是当下大模型研究的重点之一。在实际场景和应用中,普遍存在大量长序列
阅读全文王鑫涛,复旦大学博士生,师从肖仰华、汪卫教授,致力于探索用AI创造具有人格的数字生命。研究方向聚焦大语言模型与Agent技术,在AI角色扮演领域发表多篇ACL/EMNLP论文,以及该领域首篇研究综述,
阅读全文机器之心原创编辑:陈陈、杨文AI 竞争进入白热化阶段。这次,轮到百度给自家大模型上强度。刚刚,百度一口气官宣了两款大模型,分别是文心大模型 X1 和文心大模型 4.5。那么,这两款大模型有啥区别呢?这
阅读全文机器之心报道编辑:杜伟、大盘鸡Cursor 也学会「怠工」了?它不仅对用户的运行要求说「No」,还给出了合理的理由。近日,一位国外 X 用户「JanSwist」在使用 Cursor 编码时,有了这一发
阅读全文最近的研究强调了扩散模型与表征学习之间的相互作用。扩散模型的中间表征可用于下游视觉任务,同时视觉模型表征能够提升扩散模型的收敛速度和生成质量。然而,由于输入不匹配和 VAE 潜在空间的使用,将视觉模型
阅读全文本文由慕尼黑工业大学与北京大学联合团队撰写。第一作者刘强为慕尼黑工业大学博士生。第二作者楚梦渝为北京大学助理教授,专注于物理增强的深度学习算法,以提升数值模拟的灵活性及模型的准确性和泛化性。通讯作者
阅读全文机器之心原创作者:吴昕一觉醒来,AI 应用变天了。很多人每天还在搜索框里用手动挡的方式找信息,随着阿里 AI 旗舰应用夸克发布 「AI 超级框」,超级 Agent 时代呼啸而来,至少 2 亿人顷刻之间
阅读全文机器之心报道编辑:杜伟、王佳琳去年初,OpenAI 的视频生成模型 Sora 带火了扩散模型。如今,扩散模型被广泛用于生成图像和视频,并在生成文本或生物序列等离散数据方面变得越来越有效。从技术上讲,与
阅读全文AoT 作者团队来自 MetaGPT 开源社区。第一作者为香港科技大学(广州)的滕枫蔚,通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖。团队还包括 DeepWisdom 研究员于兆洋、中国
阅读全文机器之心报道机器之心编辑部语音恐怖谷是指在语音合成技术中,当 AI 合成语音接近人类的真实语音,但又存在细微的不自然或不完美之处时,会引发人类的不适感。在 AI 这条赛道上,语音助手也是大家重点发力的
阅读全文论文第一作者为香港中文大学(深圳)理工学院在读博士生郭永新,指导老师为通讯作者为香港中文大学(深圳)理工学院 / 人工智能学院助理教授唐晓莹,课题组研究方向包括大模型、联邦学习、充电智能优化与博弈等。
阅读全文机器之心原创作者:闻菲、张倩「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。随着 DeepSeek 引燃市场对于大模型私有化部署的热情,模型部署的效率与成本成为企业 AI 落地的
阅读全文机器之心报道编辑:Panda、泽南给大模型落地,加入极致的务实主义。DeepSeek 引领的新一轮 AI 技术爆发才刚开始,激烈的应用侧竞争也进入了正在进行时。由于官方服务器经常遭遇繁忙、限流等问题,
阅读全文尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multimodal-Journey、LMM-R1)尚未完全复现其核心特征。例如,R1-V 仅在简单
阅读全文本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽桓,主要研究方向为生成式人工智能和三维视觉。本文的通讯作者为 VAST 首席科学家曹炎培和
阅读全文机器之心报道机器之心编辑部现在是 2025 年,新论文要以博客形式出现。还有人沉浸在阅读论文的苦恼吗?面对 arXiv 上浩如烟海的学术论文,你是否也曾感到无从下手?复杂的术语、冗长的段落、晦涩的图表
阅读全文机器之心发布机器之心编辑部潞晨科技正式推出 Open-Sora 2.0 —— 一款全新开源的 SOTA 视频生成模型,仅 20 万美元(224 张 GPU)成功训练商业级 11B 参数视频生成大模型。
阅读全文机器之心报道编辑:杜伟、陈陈大语言模型(LLM)在推理领域的最新成果表明了通过扩展测试时计算来提高推理能力的潜力,比如 OpenAI 的 o1 系列。通常来说,这些方法在训练模型时可以产生比典型正确解
阅读全文机器之心报道机器之心编辑部它能像人眼一样,在文本、视觉输入和无提示范式等不同机制下进行检测和分割。自 2015 年由华盛顿大学的 Joseph Redmon 研究团队提出 YOLO(You Only
阅读全文作者:张拳石、陈鹭近些年,大模型的发展可谓是繁花似锦、烈火烹油。从 2018 年 OpenAI 公司提出了 GPT-1 开始,到 2022 年底的 GPT-3,再到现在国内外大模型的「百模争锋」,De
阅读全文作者:石士 阿里妈妈技术团队一、概览随着大模型时代的到来,搜推广模型是否具备新的进化空间?能否像深度学习时期那样迸发出旺盛的迭代生命力?带着这样的期待,阿里妈妈搜索广告在过去两年的持续探索中,逐步厘清
阅读全文机器之心发布机器之心编辑部DeepSeek 的风甚至吹到了美妆区。近日,一小红书博主跟足 DeepSeek 指示上妆,意外打造出「石矶娘娘」妆效,引发全网围观。一场看似无厘头的跨界实验,实则揭示了美妆
阅读全文机器之心发布机器之心编辑部就在今天,字节豆包大模型团队在 arxiv 上发布了一篇技术报告,完整公开了文生图模型技术细节,涵盖数据处理、预训练、RLHF 在内的后训练等全流程模型构建方法,也详细披露了
阅读全文机器之心报道编辑:杜伟、蛋酱继上月末连发两篇论文(扩散模型不一定需要噪声条件和分形生成模型)之后,大神何恺明又出新作了!这次的主题是「用于物理推理的去噪哈密顿网络」。物理推理包含推断、预测和解释动态系
阅读全文