英伟达开源「描述一切」模型,拿下7个基准SOTA
机器之心报道机器之心编辑部你说不出来的话,大模型替你说了。图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。虽然
阅读全文机器之心报道机器之心编辑部你说不出来的话,大模型替你说了。图像描述(image captioning)生成一直是计算机视觉和自然语言处理领域面临的长期挑战,因为它涉及理解和用自然语言描述视觉内容。虽然
阅读全文当前,基于强化学习提升多模态模型的推理能力已经取得一定的进展。但大多研究者们选择 7B+ 的模型作为基座,这对于许多资源有限的科研人员而言仍存在显著的门槛。同时,在视频推理领域,由于高质量强推理性数据
阅读全文近年来,大语言模型(LLM)在人工智能领域取得了突破性进展,成为推动自然语言处理技术发展与通用人工智能实现的核心力量。上下文学习能力(In-Context Learning, ICL)是 LLM 最显
阅读全文机器之心转载作者:孙浩RL + LLM 升级之路的四层阶梯。2025 年伊始,RL 以一种破局归来的姿态在 LLM 的后训练时代证明了其巨大价值,Sutton 和 Barto 拿了图灵奖,David
阅读全文机器之心报道编辑:蛋酱、+0在大语言模型(LLMs)竞争日趋白热化的今天,「推理能力」已成为评判模型优劣的关键指标。OpenAI 的 o 系列、Anthropic 的 Claude 和 DeepSee
阅读全文研究团队由来自北京通用人工智能研究院(BIGAI)、清华大学和北京大学的跨专业研究者组成,致力于具身智能领域的前沿研究。团队成员在开发高效、智能的通用机器人技术,特别是机械灵巧手操作方面,拥有丰富的研
阅读全文机器之心发布机器之心编辑部OpenAI 的 o1 系列和 DeepSeek-R1 的成功充分证明,大规模强化学习已成为一种极为有效的方法,能够激发大型语言模型(LLM) 的复杂推理行为并显著提升其能力
阅读全文机器之心报道机器之心编辑部AI 不再仅仅是一个工具,而是开始成为一个真正的队友。可以对标 Manus 的智能体 Suna 来了!(有没有发现它是 manus 倒过来写)这款智能体由 Kortix AI
阅读全文本文由清华黄高教授团队完成,第一作者王政是清华 MEM 工程管理硕士,SeamLessAI 创始人,曾任爱奇艺虚拟机云平台负责人,小红书商业化算法工程团队负责人。刚刚,清华大模型团队 LeapLab
阅读全文本文由 NUS ShowLab 主导完成。第一作者顾宇超为新加坡国立大学 ShowLab@NUS 在读博士生,研究方向是视觉生成,在 CVPR、ICCV、NeurIPS 等国际顶级会议与期刊上发表多篇
阅读全文机器之心报道机器之心编辑部视频生成领域,又出现一位重量级开源选手。今天,马尔奖、清华特奖得主曹越的创业公司 Sand AI 推出了自己的视频生成大模型 ——MAGI-1。这是一个通过自回归预测视频块序
阅读全文机器之心报道编辑:+0、陈陈AI 也要 007 工作制了!近日,AI 初创公司 Letta 和 UC 伯克利的研究人员提出了一种扩展人工智能能力的新方式 —— 睡眠时间计算(Sleep-time Co
阅读全文论文的第一作者是香港中文大学(深圳)数据科学学院三年级博士生徐俊杰龙,指导老师为香港中文大学(深圳)数据科学学院的贺品嘉教授和微软主管研究员何世林博士。贺品嘉老师团队的研究重点是软件工程、LLM fo
阅读全文机器之心原创编辑:吴昕21.0975 公里的产业密码:一场规模化商用落地的压力测试。4 月 19 日早上七点半,北京亦庄,全球首场人形机器人半程马拉松在南海子公园鸣枪起跑。来自北京、上海、江苏、广东等
阅读全文机器之心报道机器之心编辑部近日,微软副总裁 Nando de Freitas 发文指出,「别再神化技术或个人,AI 是一场系统性工程。」「AI 领域确实存在苦涩的教训,但若当初全盘接受它,我们现在可能
阅读全文在 AI 长文写作领域,一项革命性突破正在改写行业规则 —— 由「人工智能之父」Jürgen Schmidhuber 领衔的团队,正式开源其长文写作框架 WriteHERE。该框架凭借异质递归规划(H
阅读全文本文作者李宏康,博士毕业于美国伦斯勒理工大学,本科毕业于中国科学技术大学,并即将前往宾夕法尼亚大学担任博士后研究员。研究方向包括深度学习理论、大语言模型理论等等。本文的通讯作者为伦斯勒理工大学的汪孟教
阅读全文选自 quantamagazine作者:Leila Sloman机器之心编译一切始于一场赌局。20 世纪 80 年代末,在洛桑的一次会议上,两位数学家 Noga Alon 和 Peter Sarnak
阅读全文机器之心报道编辑:陈陈、杜伟大语言模型的推理能力,不再是 AR(自回归)的专属。扩散模型现在也能「动脑子」,新框架 d1 让它们学会了解数学、懂逻辑、会思考。当前,强化学习(RL)方法在最近模型的推理
阅读全文近日,上海人工智能实验室(上海 AI 实验室)开源了生成式世界模型 AETHER。该模型全部由合成数据训练而成,不仅在传统重建与生成任务中表现领先,更首次赋予大模型在真实世界中的 3D 空间决策与规划
阅读全文机器之心报道机器之心编辑部当 DeepSeek-R1、OpenAI o1 这样的大型推理模型还在通过增加推理时的计算量提升性能时,加州大学伯克利分校与艾伦人工智能研究所突然扔出了一颗深水炸弹:别再卷
阅读全文机器之心发布机器之心编辑部在 4 月 18 日举办的 2025 英特尔具身智能解决方案推介会上,英特尔正式发布其具身智能大小脑融合方案(下称具身智能方案)。该方案基于英特尔® 酷睿™ Ultra 处理
阅读全文机器之心报道机器之心编辑部谷歌 Gemma 3 上线刚刚过去一个月,现在又出新版本了。该版本经过量化感知训练(Quantization-Aware Training,QAT)优化,能在保持高质量的同时
阅读全文在人工智能技术日新月异的今天,语音合成(TTS)领域正经历着一场前所未有的技术革命。最新一代文本转语音系统不仅能够生成媲美真人音质的高保真语音,更实现了「只听一次」就能完美复刻目标音色的零样本克隆能力
阅读全文机器之心原创编辑:吴昕在能源AI这个高门槛赛道,中科类脑完成了一场从技术攻坚到商业变现的深度突围。单笔融资破亿,能源 AI 杀出实力派「 AI 的尽头是能源!」马斯克与 Sam Altman 的隔空对
阅读全文机器之心报道编辑:Panda4 月 14 日,谷歌首席科学家 Jeff Dean 在苏黎世联邦理工学院举办的信息学研讨会上发表了一场演讲,主题为「AI 的重要趋势:我们是如何走到今天的,我们现在能做什
阅读全文选自Lesswrong作者:lc机器之心编译编辑:泽南、张倩Llama 4 或许只是冰山一角。「AI 大模型自去年 8 月以来就没有太大进步」。这是一位 AI 创业者在近期的一篇博客中发表的观点。他在
阅读全文机器之心报道作者:蛋酱这几天的大模型圈子,特别热闹。凌晨是 OpenAI 的 o3 和 o4-mini,一觉醒来,国内这边的豆包大模型又上新了一波。巧合的是,都是能看懂图像、能调用工具的新一代推理模型
阅读全文机器之心发布机器之心编辑部当春风吹过狮城,ICLR 2025 如约而至,全球技术精英汇聚一堂。从前沿展示到深度对话,再到思想碰撞的夜晚,蚂蚁集团邀你开启一场科技与灵感的奇妙之旅,共同见证技术的力量!蚂
阅读全文本文由南洋理工大学和商汤科技联合完成。第一作者杨沛青为南洋理工大学 MMLab@NTU 在读博士生,在 CVPR、NeurIPS、IJCV 等国际顶级会议与期刊上发表多篇研究成果。项目负责作者为该校研
阅读全文