小红书发布FireRedChat:首个可私有化部署的全双工大模型语音交互系统
小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互更加自然,首发级联与半级联两套实现,端到端时延逼近工业级应用。
阅读全文小红书智创音频团队推出业内首个支持私有化部署的全双工大模型语音交互系统 FireRedChat,自研流式 pVAD 与 EoT 让语音交互更加自然,首发级联与半级联两套实现,端到端时延逼近工业级应用。
阅读全文机器之心报道机器之心编辑部没想到吧,在别家节前卷大模型时,OpenAI 悄悄发布了 Sora2。而且,这次是直接产品化,推出了 App,甚至还有配套的视频推送算法,声称可以防成瘾。这是要做自己的 Ti
阅读全文机器之心报道编辑:+0在 AI 圈里,聚光灯总是追逐着那些履历光鲜的明星人物。但一个伟大的团队,不仅有台前的明星,更有无数在幕后贡献关键力量的英雄。之前我们介绍了 OpenAI 的两位波兰工程师,最近
阅读全文近年来,以强化学习为核心的训练方法显著提升了大语言模型(Large Language Models, LLMs)的推理能力与对齐性能,尤其在理解人类意图、遵循用户指令以及增强推理能力方面效果突出。尽管
阅读全文机器之心报道机器之心编辑部新一代大模型的发布,都赶在了国庆假期前。昨天,深度求索刚刚开源 DeepSeek-V3.2-Exp。今天,另一国产大模型之光智谱 AI 也正式发布了旗下新一代旗舰模型 GLM
阅读全文机器之心发布机器之心编辑部2025年9月17日,中国科学院香港创新研究院人工智能与机器人创新中心(CAIR)在香港正式开源发布其最新科研成果——EchoCare“聆音”超声基座大模型(简称“聆音”)。
阅读全文面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spati
阅读全文机器之心报道机器之心编辑部SALMONN 家族在首个通用音频理解模型(ICLR 2024)和首个全要素音视频理解模型 video-SALMONN(ICML 2024)基础上再次迎来重磅扩容,霸榜各大音
阅读全文机器之心发布机器之心编辑部为具身智能行业提供了一个可复用、可扩展的通用基座,同时开源训练数据集。今天,北京智源人工智能研究院(BAAI)正式开源 RoboBrain-X0,一个能够在零样本泛化、轻量微
阅读全文近年来,3D 原生生成模型在游戏、影视和设计领域的资产创建中展现出强大潜力。然而,大多数现有方法仍主要依赖图像作为条件输入,缺乏细粒度、多模态的控制能力,限制了其在实际生产流程中的应用。为解决这一瓶颈
阅读全文机器之心报道编辑:Panda、泽南AI 行业很多人相信,我们正在或已经进入所谓的「AI 下半场」。在这一轮 AI 的浪潮中,硬件的竞争早已不再是单纯的算力比拼,而是一场围绕软件、开发者与生态的「护城河
阅读全文机器之心报道编辑:冷猫思考自身行为的后果,并在必要时进行修正 —— 这是人类智慧的核心特征之一。一个月前,我们曾报道过清华姚班校友、普林斯顿教授陈丹琦似乎加入 Thinking Machines La
阅读全文机器之心发布机器之心编辑部「统一认知、智能执行、决策中枢、记忆进化、智能体工厂、AI治理」六大维度,让企业彻底跳出「用AI」的工具思维,成为「AI原生组织」。走进任何一家大中型企业,「系统横跳」已成为
阅读全文由华中科技大学与小米汽车提出了业内首个无需 OCC 引导的多模态的图像 - 点云联合生成框架 Genesis。该算法只需基于场景描述和布局(包括车道线和 3D 框),就可以生成逼真的图像和点云视频。论
阅读全文机器之心原创编辑:吴昕全 AI 生成高质量剧情长片已经在技术上成为可能。去年九月,中国香港动画公司 ManyMany Creations Limited 的几位年轻主创立下了一个几乎「逆天」的目标——
阅读全文机器之心报道编辑:泽南、杨文AI 的颠覆近在眼前,奥特曼不是乱说的。时至今日,我们已见过太多大模型的评估方法。比如涵盖了数十个学科的考试式问题的学术基准 MMLU,还有 SWE-Bench (软件工程
阅读全文张昊然,上海交通大学人工智能学院的博士一年级学生,主要研究兴趣为大模型推理和可信人工智能。去年 12 月,OpenAI 提出的 Deliberative Alignment 引发了广泛关注。面对用户安
阅读全文机器之心报道作者:Youli谁最懂场景,谁赢得未来。9 月 25 日,北京,深秋的气息逐渐浓烈,即便太阳高悬,空气中还是流露出些许凉意,而在中关村国际创新中心,一墙之隔的里面,却是喧哗而热闹。人形机器
阅读全文近期,快手 Kwaipilot 团队推出了 KAT 系列两款突破性 Agentic Coding 大模型:开源 32B 参数模型 KAT-Dev-32B 与闭源旗舰模型 KAT-Coder。这两款模
阅读全文近日,北京大学王选计算机研究所周嘉欢助理教授与彭宇新教授合作在人工智能重要国际期刊 IEEE TPAMI 发布一项最新的研究成果:DKP++(Distribution-aware Knowledge
阅读全文机器之心报道机器之心编辑部AI 视频生成行业天花板再次被拉高。百度杀入 AI 视频生成赛道后,就一直加班加点卷个不停。7 月初,百度第一次正式官宣蒸汽机 1.0 模型,以极致指令遵循能力惊艳亮相;8
阅读全文机器之心报道编辑:杜伟今天上午,在古北水镇举办的 2025 骁龙峰会·中国会场,高通最新、最强、最快的移动旗舰 SoC 正式问世!本代 SoC 被命名为「第五代骁龙 8 至尊版移动平台」(骁龙 8 E
阅读全文随着多模态大语言模型(MLLMs)在视觉问答、图像描述等任务中的广泛应用,其推理能力尤其是数学几何问题的解决能力,逐渐成为研究热点。然而,现有方法大多依赖模板生成图像 - 文本对,泛化能力有限,且视觉
阅读全文机器之心发布机器之心编辑部作为人类文明的基石产业,建筑地产行业既是全球经济的核心支柱,更在时代浪潮中展现出强劲韧性:全球供应链重组催生人口流动红利,为核心区域注入持续开发需求;人口结构变迁与远程办公浪
阅读全文机器之心发布机器之心编辑部在全球人工智能浪潮奔涌向前的当下,创新的核心驱动力正越来越多地来自年轻一代。他们敢于挑战前沿、不惧失败,正以跨界融合之姿重新定义科学发现的范式。作为长期关注科学智能(AI f
阅读全文本论文第一作者张勇为北京理工大学医学技术学院计算机技术专业硕士生,主要研究方向为联邦学习,多专家大模型,多任务学习和并行代理。通讯作者是深圳北理莫斯科大学人工智能研究院梁锋博士和胡希平教授。梁锋博士毕
阅读全文机器之心报道编辑:Panda、张倩前段时间,谷歌母公司 Alphabet 市值突破 3 万亿美元,成为第四家市值达到这一门槛的公司。如果时间倒回到两年半以前,谷歌自己可能都没有想到这一结果。当时,Ch
阅读全文机器之心报道编辑:冷猫数月前,苹果基础模型团队负责人、杰出工程师庞若鸣(Ruoming Pang)离职加入 Meta。扎克伯格豪掷两亿美元招揽庞若鸣加入超级智能团队。根据庞若鸣的领英信息,他已在 Me
阅读全文本文共同第一作者蒋体通,清华大学直博五年级学生,研究方向是VLA、自动驾驶和人机交互等。共同第一作者蒋雪枫,中国科学院计算技术研究所直博五年级学生,研究方向聚焦弱监督学习,多模态大模型应用和生成式自动
阅读全文机器之心报道编辑:泽南9 月 22 日下午,联发科推出的新一代旗舰 5G 智能体 AI 芯片 —— 天玑 9500,并展示了一系列新形态端侧的 AI 应用,在公众层面首次推动端侧 AI 从尝鲜到好用。
阅读全文