为什么都在聊 Kimi K2?Open Agentic Intelligence 藏着哪些新惊喜
ABSTRACT我们推出 Kimi K2,这是一款拥有 32B 激活参数和 1T 总参数的专家混合(MoE)大型语言模型。我们提出了 MuonClip 优化器,它在 Muon 的基础上采用了一种新颖
阅读全文ABSTRACT我们推出 Kimi K2,这是一款拥有 32B 激活参数和 1T 总参数的专家混合(MoE)大型语言模型。我们提出了 MuonClip 优化器,它在 Muon 的基础上采用了一种新颖
阅读全文1. 研究背景与核心问题• 现状:现有大型音频语言模型(LALMs)依赖文本输出,需额外调用ASR/TTS模块生成语音,导致级联错误累积和系统复杂性增加。• 关键挑战:缺乏端到端模型直接处理音频输入
阅读全文在这里插入图片描述1. 核心目标提出条件流匹配(CFM) 及其优化版本OT-CFM,解决连续标准化流(CNF)中模拟ODE的困难,并通过最优传输减少路径交叉问题。2. 关键概念(1) Flow Ma
阅读全文核心目标文章是Conditional Flow Matching (CFM) 系列的开篇,旨在为理解CFM(一种新兴生成模型)奠定数学基础。重点介绍三个核心概念:常微分方程(ODE)、数值解法(欧拉
阅读全文在这里插入图片描述好的,我们来梳理一下这篇文章的核心内容:Normalizing Flow 的基本原理及其在语音生成(特别是 WaveGlow 和 VITS)中的应用。文章主旨:解释 Normali
阅读全文ABSTRACT尽管基于生成对抗网络(GAN)的语音编码器在近期取得了进展,即模型能够根据声学特征生成原始波形,但要为来自各种录音环境的众多说话者合成高质量的音频却颇具挑战性。在本研究中,我们提出了
阅读全文我们推出了 MiniMax-Speech,这是一款基于自回归 Transformer 的文本转语音(TTS)模型,能够生成高质量的语音。其关键创新在于我们可学习的说话人编码器,它可以从参考音频中提取
阅读全文Think好的,用户问的是“指令选择更重要还是响应选择更重要”,我需要先回顾之前的对话和论文内容。用户之前让我精读了GRAPE这篇论文,其中主要关注响应选择,通过选择与目标模型预训练分布匹配的响应来
阅读全文时隔半年,最近的迷茫反而越来越多了。先碎碎念,有时间写干货。这次干货预计会更多,多到爆炸。本人太懒码字太累,因此可能会少次多量分几篇发出来,目前计划包括但不限于数据合成全流程分享篇、拟人化能力提升篇
阅读全文ABSTRACT高质量的指令数据对于对齐大型语言模型(LLM)至关重要。尽管一些模型(如 Llama-3-Instruct)的权重是公开的,但其对齐数据仍处于私有状态,这阻碍了人工智能的民主化。高昂
阅读全文Abstract在大型语言模型(LLMs)的领域中,指令数据的质量与数量之间的平衡是一个关键问题。鉴于此,我们提出了一种针对 LLM 的 self-guided 方法,使其能够自主地从开源数据集中识别
阅读全文Abstract我们推出了 Kimi-Audio,这是一款开源的音频基础模型,擅长音频理解、生成和对话。我们详细介绍了构建 Kimi-Audio 的方法,包括模型架构、数据整理、训练方案、推理部署和
阅读全文Kimi-Audio开放了模型和推理脚本,但不支持TTS推理。魔改了模型可以支持TTS的任务,能同时输出文本和音频。测试发现:1. audio的输出和text的输出有时会不同步,即内容不一致。一般音
阅读全文Background2022年底,OpenAI关于InstructGPT的论文b[1]引发了人们对人类反馈强化学习(RLHF)的广泛兴趣,现在通常被称为后训练。核心概念包括使用配对偏好数据集结合ra
阅读全文每个生成模型理想情况下都是一个密度估计器;因此,它会建模一个概率密度,最终是一个联合概率分布(JPD),具有两个预期特性,即采样和压缩。压缩基本上是将数据推送到信息空间,这看起来维度更低,而采样则是
阅读全文北京信息科技大学,北京市重点支持建设的高校,原名北京信息工程学院,隶属于电子工业部,1997年合并成立新的北京信息工程学院,2008年改现名,有沙河、小营、金台路和酒仙桥四个校区,占地81万余平方米,
阅读全文在计算机科学领域,SimHash 是一种用于快速估算两个集合相似度的技术。谷歌利用该算法来查找近乎重复的网页(Detecting Near-Duplicates for Web Crawling)。
阅读全文AddressSanitizer (ASan)是一种调试工具,用于检测c++程序中的内存错误。它的工作原理是在程序编译的二进制代码中插入特殊的工具,这允许它监视内存访问,并检测程序何时试图访问无效或已
阅读全文It feels strange to me to use -Wl,-Bstatic in order to tell gcc which libraries I want to link with
阅读全文Address Sanitizer是谷歌开发的检测 use-after-free、内存泄漏等内存访问错误的工具。它内置在GCC版本>= 4.8中,可以在C和c++代码中使用。Address Sanit
阅读全文为了完成玩家精灵的移动机制,我们还剩下一个功能叫做动画。如果你有视频和动画的经验,你会知道视频是通过运行许多静止的图像来创建一个移动的效果。这里我们在做同样的事情。我们有近10个Player在移动时的
阅读全文估值超过1000 亿元,正在筹备美股上市的独角兽公司 Klarna,其 CEO 最近公开承认:公司在过去几年采用的以 AI 为中心的战略,是错误的!图片来源:Klarna从 2023 年开始,Klar
阅读全文think嗯,我现在得弄清楚single codebook和dual codebook在大型语言模型(LLM)的向量量化方面有什么区别。首先,我需要回顾一下向量量化的基本概念,然后再看看这两种不同的
阅读全文Abstract在本文中,我们描述了用于从医学对话中提取临床相关信息的新组件,这些组件将作为Google API提供。我们描述了一个基于transformer的 Recurrent Neural Ne
阅读全文