360° 视频也能“听见方向”了?
当你置身于一场音乐会,闭上眼睛,仍能凭借声音判断乐器的位置;在电影院,环绕音效让我们仿佛置身于电影场景之中;这是我们大脑对声音的“空间感知”。空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提
阅读全文当你置身于一场音乐会,闭上眼睛,仍能凭借声音判断乐器的位置;在电影院,环绕音效让我们仿佛置身于电影场景之中;这是我们大脑对声音的“空间感知”。空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提
阅读全文CoGenAV 的核心理念是让 AI 模型也实现“音画同步”的深度理解。它不再只是“听见声音”,而是通过学习 audio-visual-text 之间的时序对齐关系,构建出一个更鲁棒、更通用的语音表征
阅读全文全球开源模型冠军 Qwen3、端到端全模态模型 Qwen2.5-Omni,现已成功在手机上跑通!在 MNN 的支持下,Qwen3 系列模型已适配 Android、iOS 及桌面端,实现低延迟、本地化、
阅读全文此次开源的 Wan2.1-VACE-1.3B 支持 480P 分辨率,Wan2.1-VACE-14B 支持 480P 和 720P 分辨率。通过 VACE,用户可一站式完成文生视频、图像参考生成、局部
阅读全文通义灵码已全面支持 Qwen3,并正式上线编程智能体。升级后的通义灵码,不再只是“写代码”的工具,而是真正能“理解任务”的智能搭档。依托 Qwen3 的强大能力,结合智能体与 MCP 能力,通义灵码可
阅读全文性能卓越灵活适配多场景需求作为Qwen系列全新一代的混合推理模型,Qwen3 在 GPQA、AIME24/25、LiveCodeBench 等多个权威评测中表现出极具竞争力的结果。在相同计算资源下,Q
阅读全文以AI为笔墨、代码为丹青第十届中国航天日通义实验室联合中国航天局新闻宣传中心打造了一副 AIGC 宋代山水长卷如何将诗句中的意境转化为生动的视频画面“破译”诗句的镜头语言尤为重要借助 Qwen2.5-
阅读全文作为大模型的“桥梁”,MCP 通过统一标准,让大模型轻松调用各类数据源和外部工具,真正实现能力的无限扩展。MCP 协议是什么?如何快速搭建 MCP 服务并完成 Agent 配置?本文将从零开始,手把手
阅读全文Q1LHM是什么?LHM是一个单视角输入、端到端的Transformer模型,依赖于人体先验模型SMPL-X进行驱动,最终输出一个可驱动的高斯3D人体模型。你可以把LHM看作一个“魔法工具”,它能帮你
阅读全文水资源动态预测、天体瞬变现象、珊瑚生态退化这些「地球级难题」遇上AI都变成了可以计算的数学题当气候变化按下加速键,青藏高原正在经历一场无声的危机——“亚洲水塔失衡”。「亚洲水塔失衡」过去50年,青藏高
阅读全文水资源动态预测、天体瞬变现象、珊瑚生态退化这些「地球级难题」遇上AI都变成了可以计算的数学题当气候变化按下加速键,青藏高原正在经历一场无声的危机——“亚洲水塔失衡”。「亚洲水塔失衡」过去50年,青藏高
阅读全文Qwen2.5的秘密武器“大脑+嘴巴”双核架构Qwen2.5-Omni采用Thinker-Talker双核架构。Thinker负责“想”,Talker负责“说”,两者无缝协作!Thinker模块如同大
阅读全文可扩展训练范式多阶段递进训练:从192P图像预训练到720P视频的多阶段递进训练,结合Flow Matching框架,实现14B参数模型的高效稳定收敛。分布式训练加速:经过详细的负载分析,结合DP、C
阅读全文随着DeepSeek R1的推出,强化学习在大模型领域的潜力被进一步挖掘。Reinforcement Learning with Verifiable Reward (RLVR) 方法的出现,为多模态
阅读全文QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力。下图展示了 QwQ-32B 与其他模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、
阅读全文