AI大模型调参指北笔记

F5-TTS：用 Flow Matching 玩转语音，流畅度和真实感都 “拉满” 了
作者：AI大模型调参指北笔记发布日期：2025-08-06 22:16:13
Abstract本文介绍了 F5-TTS，这是一种基于流匹配与扩散变压器（DiT）的完全非自回归文本转语音系统。它无需诸如时长模型、文本编码器和音素对齐等复杂设计，直接将文本输入用填充标记填充至与输
阅读全文
E2 TTS：令人尴尬地简单、完全非自回归、零样本的语音合成技术
作者：AI大模型调参指北笔记发布日期：2025-08-04 22:00:00
ABSTRACT本文介绍了“毫不费力的文本转语音”（E2 TTS）系统，这是一款完全非自回归的零样本文本转语音系统，其具备接近人类水平的自然度、先进的说话人相似度和清晰度。在 E2 TTS 框架中，
阅读全文
为什么都在聊 Kimi K2？Open Agentic Intelligence 藏着哪些新惊喜
作者：AI大模型调参指北笔记发布日期：2025-07-30 22:30:17
ABSTRACT我们推出 Kimi K2，这是一款拥有 32B 激活参数和 1T 总参数的专家混合（MoE）大型语言模型。我们提出了 MuonClip 优化器，它在 Muon 的基础上采用了一种新颖
阅读全文
Step-Audio-AQAA 端到端音频模型
作者：AI大模型调参指北笔记发布日期：2025-07-28 22:03:00
1. 研究背景与核心问题• 现状：现有大型音频语言模型（LALMs）依赖文本输出，需额外调用ASR/TTS模块生成语音，导致级联错误累积和系统复杂性增加。• 关键挑战：缺乏端到端模型直接处理音频输入
阅读全文
CFM 与 OT-CFM：条件流匹配与最优传输的碰撞
作者：AI大模型调参指北笔记发布日期：2025-07-11 21:18:31
在这里插入图片描述1. 核心目标提出条件流匹配（CFM）及其优化版本OT-CFM，解决连续标准化流（CNF）中模拟ODE的困难，并通过最优传输减少路径交叉问题。2. 关键概念(1) Flow Ma
阅读全文
DPO损失实现
作者：AI大模型调参指北笔记发布日期：2025-07-09 21:34:00
以下是DPO（Direct Preference Optimization）损失函数的PyTorch实现及其详细解析：1. DPO损失函数原理DPO通过隐式奖励对比优化模型偏好，避免传统RLHF的复
阅读全文
Conditional Flow Matching : 常微分方程ODE、欧拉方法和Neural ODE
作者：AI大模型调参指北笔记发布日期：2025-07-08 21:49:42
核心目标文章是Conditional Flow Matching (CFM) 系列的开篇，旨在为理解CFM（一种新兴生成模型）奠定数学基础。重点介绍三个核心概念：常微分方程（ODE）、数值解法（欧拉
阅读全文
当 Normalizing flow 遇上语音生成：AI 说话变 “真人” 的秘密在这里！
作者：AI大模型调参指北笔记发布日期：2025-07-07 21:58:04
在这里插入图片描述好的，我们来梳理一下这篇文章的核心内容：Normalizing Flow 的基本原理及其在语音生成（特别是 WaveGlow 和 VITS）中的应用。文章主旨：解释 Normali
阅读全文
深度剖析：Kimi - Audio 中 BigVGAN 的神奇作用
作者：AI大模型调参指北笔记发布日期：2025-07-03 21:30:27
ABSTRACT尽管基于生成对抗网络（GAN）的语音编码器在近期取得了进展，即模型能够根据声学特征生成原始波形，但要为来自各种录音环境的众多说话者合成高质量的音频却颇具挑战性。在本研究中，我们提出了
阅读全文
MiniMax-Speech，零样本语音合成新突破，32 种语言轻松拿捏！
作者：AI大模型调参指北笔记发布日期：2025-06-27 21:00:00
我们推出了 MiniMax-Speech，这是一款基于自回归 Transformer 的文本转语音（TTS）模型，能够生成高质量的语音。其关键创新在于我们可学习的说话人编码器，它可以从参考音频中提取
阅读全文
SFT 中指令选择和响应选择哪个更重要？
作者：AI大模型调参指北笔记发布日期：2025-06-19 21:34:00
Think好的，用户问的是“指令选择更重要还是响应选择更重要”，我需要先回顾之前的对话和论文内容。用户之前让我精读了GRAPE这篇论文，其中主要关注响应选择，通过选择与目标模型预训练分布匹配的响应来
阅读全文
角色扮演大模型技术分享2-超拟人模型的困境
作者：AI大模型调参指北笔记发布日期：2025-06-17 21:03:18
时隔半年，最近的迷茫反而越来越多了。先碎碎念，有时间写干货。这次干货预计会更多，多到爆炸。本人太懒码字太累，因此可能会少次多量分几篇发出来，目前计划包括但不限于数据合成全流程分享篇、拟人化能力提升篇
阅读全文
如何低成本生成高质量指令微调数据？
作者：AI大模型调参指北笔记发布日期：2025-06-12 22:05:33
ABSTRACT高质量的指令数据对于对齐大型语言模型（LLM）至关重要。尽管一些模型（如 Llama-3-Instruct）的权重是公开的，但其对齐数据仍处于私有状态，这阻碍了人工智能的民主化。高昂
阅读全文
从数量到质量：通过自引导数据选择来提升语言模型性能以实现指令调优
作者：AI大模型调参指北笔记发布日期：2025-06-11 21:35:02
Abstract在大型语言模型（LLMs）的领域中，指令数据的质量与数量之间的平衡是一个关键问题。鉴于此，我们提出了一种针对 LLM 的 self-guided 方法，使其能够自主地从开源数据集中识别
阅读全文
Kimi-Audio：开源音频基础模型全面解析
作者：AI大模型调参指北笔记发布日期：2025-06-10 21:24:59
Abstract我们推出了 Kimi-Audio，这是一款开源的音频基础模型，擅长音频理解、生成和对话。我们详细介绍了构建 Kimi-Audio 的方法，包括模型架构、数据整理、训练方案、推理部署和
阅读全文
Kimi-Audio 的 TTS 效果如何？
作者：AI大模型调参指北笔记发布日期：2025-06-09 21:07:45
Kimi-Audio开放了模型和推理脚本，但不支持TTS推理。魔改了模型可以支持TTS的任务，能同时输出文本和音频。测试发现：1. audio的输出和text的输出有时会不同步，即内容不一致。一般音
阅读全文
RLHF及其变体：进展和实际工程见解
作者：AI大模型调参指北笔记发布日期：2025-06-06 21:00:00
Background2022年底，OpenAI关于InstructGPT的论文b[1]引发了人们对人类反馈强化学习（RLHF）的广泛兴趣，现在通常被称为后训练。核心概念包括使用配对偏好数据集结合ra
阅读全文
晦涩难懂的 Flow matching！图形化理解
作者：AI大模型调参指北笔记发布日期：2025-06-05 21:00:00
每个生成模型理想情况下都是一个密度估计器；因此，它会建模一个概率密度，最终是一个联合概率分布（JPD），具有两个预期特性，即采样和压缩。压缩基本上是将数据推送到信息空间，这看起来维度更低，而采样则是
阅读全文
校园篇-北京信息科技大学2025
作者：AI大模型调参指北笔记发布日期：2025-05-31 10:00:00
北京信息科技大学，北京市重点支持建设的高校，原名北京信息工程学院，隶属于电子工业部，1997年合并成立新的北京信息工程学院，2008年改现名，有沙河、小营、金台路和酒仙桥四个校区，占地81万余平方米，
阅读全文
Simhash-文档去重算法简介
作者：AI大模型调参指北笔记发布日期：2025-05-29 21:30:51
在计算机科学领域，SimHash 是一种用于快速估算两个集合相似度的技术。谷歌利用该算法来查找近乎重复的网页（Detecting Near-Duplicates for Web Crawling）。
阅读全文
Address Sanitizer in C++
作者：AI大模型调参指北笔记发布日期：2025-05-28 21:02:38
AddressSanitizer (ASan)是一种调试工具，用于检测c++程序中的内存错误。它的工作原理是在程序编译的二进制代码中插入特殊的工具，这允许它监视内存访问，并检测程序何时试图访问无效或已
阅读全文
Telling gcc directly to link a library statically
作者：AI大模型调参指北笔记发布日期：2025-05-27 21:15:00
It feels strange to me to use -Wl,-Bstatic in order to tell gcc which libraries I want to link with
阅读全文
亲测有效！如何用 Address Sanitizer 精准定位内存漏洞？附保姆级操作指南
作者：AI大模型调参指北笔记发布日期：2025-05-26 22:04:48
Address Sanitizer是谷歌开发的检测 use-after-free、内存泄漏等内存访问错误的工具。它内置在GCC版本>= 4.8中，可以在C和c++代码中使用。Address Sanit
阅读全文
教娃编程系列｜RPG 游戏 – 移动动画
作者：AI大模型调参指北笔记发布日期：2025-05-24 10:00:00
为了完成玩家精灵的移动机制，我们还剩下一个功能叫做动画。如果你有视频和动画的经验，你会知道视频是通过运行许多静止的图像来创建一个移动的效果。这里我们在做同样的事情。我们有近10个Player在移动时的
阅读全文
要用 AI 裁员 50% 的千亿独角兽，公开认错，重启招聘！
作者：AI大模型调参指北笔记发布日期：2025-05-22 21:00:00
估值超过1000 亿元，正在筹备美股上市的独角兽公司 Klarna，其 CEO 最近公开承认：公司在过去几年采用的以 AI 为中心的战略，是错误的！图片来源：Klarna从 2023 年开始，Klar
阅读全文
一些文档去重算法
作者：AI大模型调参指北笔记发布日期：2025-05-21 21:00:00
在讨论 SimHash 之前，让我们先回顾一下其他一些也能识别重复内容的方法。Longest Common Subsequence(LCS)这就是diff命令所使用的算法。它也是一种编辑距离，仅包含
阅读全文
single codebook和dual codebook在LLM中向量量化上有什么区别？
作者：AI大模型调参指北笔记发布日期：2025-05-19 21:00:00
think嗯，我现在得弄清楚single codebook和dual codebook在大型语言模型（LLM）的向量量化方面有什么区别。首先，我需要回顾一下向量量化的基本概念，然后再看看这两种不同的
阅读全文
富贵迷人眼
作者：AI大模型调参指北笔记发布日期：2025-05-18 11:24:31
阅读全文
阳光明媚吗，刘桑？
作者：AI大模型调参指北笔记发布日期：2025-05-17 11:28:34
阅读全文
什么是置信度？置信度模型怎么做？
作者：AI大模型调参指北笔记发布日期：2025-05-16 21:00:00
Abstract在本文中，我们描述了用于从医学对话中提取临床相关信息的新组件，这些组件将作为Google API提供。我们描述了一个基于transformer的 Recurrent Neural Ne
阅读全文