全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    0:6横扫阵风!中国歼10CE外销封神,福建舰的“六代机”要逆天?​​

    作者:AI大模型调参指北笔记发布日期:2025-05-15 10:00:00

    阅读全文
  • 文章封面

    红黑树是啥?

    作者:AI大模型调参指北笔记发布日期:2025-05-14 20:59:51

    二叉搜索树是一种基本的数据结构,但如果树变得不平衡,它们的性能就会受到影响。红黑树是一种平衡的二叉搜索树,它使用一组规则来保持平衡,确保插入、删除和搜索等操作的对数时间复杂度,而不管树的初始形状如何。

    阅读全文
  • 文章封面

    FSQ的原理与VQ-VAE的区别和联系

    作者:AI大模型调参指北笔记发布日期:2025-05-13 21:00:00

    论文的标题是《Finite Scalar Quantization: VQ-VAE Made Simple》,顾名思义,这是一篇旨在用FSQ(Finite Scalar Quantization)简化

    阅读全文
  • 文章封面

    多进程中的 fork 与 spawn:为什么你的 GPU 加速会踩坑?

    作者:AI大模型调参指北笔记发布日期:2025-05-12 21:17:00

    在 Python 的 multiprocessing 模块中,隐藏着一个影响深度学习框架性能的关键选择——进程创建方式。让我们通过一个真实的 CUDA 初始化报错案例,深入理解 fork 与 spa

    阅读全文
  • 文章封面

    教娃编程系列|RPG 游戏 – 重力与跳跃

    作者:AI大模型调参指北笔记发布日期:2025-05-09 22:02:12

    由于我们在上一个教程中的努力,我们的玩家角色现在可以移动了。然而,游戏缺乏重力以及与地面本身的交互性。目前,我们的Player只是漂浮在空中,这当然是不可接受的。你可以制作一个临时的解决方案,使用地面

    阅读全文
  • 文章封面

    大模型并行训练的一些知识——极简版

    作者:AI大模型调参指北笔记发布日期:2025-05-08 21:13:56

    Tensor ParallelismTensor parallelism is a technique used to fit a large model in multiple GPUs. For

    阅读全文
  • 文章封面

    GPTQ:生成式预训练Transformer的精确训练后量化

    作者:AI大模型调参指北笔记发布日期:2025-05-07 21:17:00

    生成式预训练的Transformer模型,称为GPT或OPT,通过在复杂语言建模任务中的突破性性能,以及极高的计算和存储成本,使自己脱颖而出。具体来说,由于其庞大的尺寸,即使是对大型,高精度GPT模

    阅读全文
  • 文章封面

    胖东来与京东联手了

    作者:AI大模型调参指北笔记发布日期:2025-05-06 22:55:18

    阅读全文
  • 文章封面

    教娃编程系列|RPG 游戏 – Player Movement

    作者:AI大模型调参指北笔记发布日期:2025-05-05 21:40:26

    Introduction这个Pygame RPG教程和下一个教程都专注于执行移动和物理,允许我们的玩家可以移动,跳跃并与他所站的地面互动的完整系统。本教程的全部内容都是基于我们需要在Player类中创

    阅读全文
  • 文章封面

    这儿没人

    作者:AI大模型调参指北笔记发布日期:2025-05-04 09:17:00

    阅读全文
  • 文章封面

    教娃编程系列|PRG - The Player Class

    作者:AI大模型调参指北笔记发布日期:2025-05-01 21:00:00

    这个RPG教程中最重要的类是Player类。这个类负责几乎所有与玩家相关的事情,包括移动、攻击、碰撞检测、渲染、状态跟踪等等。由于它的总大小和许多概念,我们将在教程系列的其余部分慢慢构建Player类

    阅读全文
  • 文章封面

    LLM 中 tool 和 RAG 怎么融入到对话数据中?

    作者:AI大模型调参指北笔记发布日期:2025-04-30 21:00:00

    在这里插入图片描述整理开源数据的时候,看到一种融入检索 tool 或 RAG 的方式,看着挺简单的,可以供参考:{ "role":"user", "content":"电脑屏幕被

    阅读全文
  • 文章封面

    Qwen3 在五一节前发布了!

    作者:AI大模型调参指北笔记发布日期:2025-04-29 08:50:58

    今天,阿里宣布推出 Qwen3,这是 Qwen 系列大型语言模型的最新成员。我们的旗舰模型 Qwen3-235B-A22B 在代码、数学、通用能力等基准测试中,与 DeepSeek-R1、o1、o3

    阅读全文
  • 文章封面

    RLHF 入门,高手勿进!

    作者:AI大模型调参指北笔记发布日期:2025-04-28 21:08:55

    LLM Training: RLHF and Its Alternatives在讨论语言模型(LLM)时,无论是研究新闻还是教程中,我都会频繁提及一种被称为“带有人类反馈的强化学习”(RLHF)的过

    阅读全文
  • 文章封面

    最佳的指令数据应当是什么样的?

    作者:AI大模型调参指北笔记发布日期:2025-04-27 21:00:00

    Abstract高质量的监督微调(SFT)数据对于激发预训练大型语言模型(LLM)的强大能力至关重要。通常情况下,指令会与从其他 LLM 中采样的多个响应配对,而这些响应往往偏离了要微调的目标模型的

    阅读全文
  • 文章封面

    Pygame RPG Tutorial 2 – Building the World

    作者:AI大模型调参指北笔记发布日期:2025-04-25 21:00:00

    背景和视觉效果是任何游戏不可或缺的组成部分,无论其大小和类型如何。游戏世界的互动性和动态性越强越好。在本教程中我们不会深入讨论,但将在本系列后面讨论如何更改视觉效果。Creating the Back

    阅读全文
  • 文章封面

    Qwen 的训练数据是怎么做的?

    作者:AI大模型调参指北笔记发布日期:2025-04-24 21:00:00

    QwenPRE-TRAINING DATA数据量大小已被证明是开发强大大型语言模型的关键因素,这一点在之前的研究中中得到了强调。为了创建一个有效的预训练数据集,确保数据的多样性并涵盖各种类型、领域和

    阅读全文
  • 文章封面

    用 bitsandbytes、4 比特量化和 QLoRA 打造亲民的 LLM

    作者:AI大模型调参指北笔记发布日期:2025-04-23 21:00:00

    众所周知,LLM 规模庞大,如果在也能消费类硬件中运行或训练它们将是其亲民化的巨大进步。我们之前撰写的 LLM.int8 博文 展示了我们是如何将 LLM.int8 论文 中的技术通过 bitsan

    阅读全文
  • 文章封面

    Prefill-Decode分离

    作者:AI大模型调参指北笔记发布日期:2025-04-22 21:00:00

    在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述A request going through an LLM serving engine with dis

    阅读全文
  • 文章封面

    我们如何为 DeepSeek-R1 对 vLLM 进行优化

    作者:AI大模型调参指北笔记发布日期:2025-04-21 21:00:00

    DeepSeek 和 vLLM 的优化一直是我们的团队以及整个 vLLM 社区的首要任务,我们很高兴能深入分享我们的工作成果。在本文中,我们将介绍我们所取得的关键推理改进,详细说明 DeepSeek

    阅读全文
  • 文章封面

    MCP(模型上下文协议)是什么以及它是如何运作的

    作者:AI大模型调参指北笔记发布日期:2025-04-20 10:00:00

    What is MCP?MCP(模型上下文协议)是一种开放、通用的协议,它规范了应用程序如何向大型语言模型(LLM)提供上下文信息。简单来说,正如 HTTP 协议允许不同的网站和浏览器按照相同的规则交

    阅读全文
  • 文章封面

    Model Context Protocol (MCP)

    作者:AI大模型调参指北笔记发布日期:2025-04-19 12:20:44

    虽然模型上下文协议(MCP)目前主要是在工具集成方面进行讨论,但其上下文管理能力却是该协议中同样重要(甚至可能是更为基础)的一个方面。在 MCP 中的上下文管理解决了几个关键问题:•上下文窗口的限制方

    阅读全文
  • 文章封面

    CosyVoice 2:基于大型语言模型的可扩展流式语音合成技术

    作者:AI大模型调参指北笔记发布日期:2025-04-17 22:00:00

    Abstract在我们之前的工作中,我们推出了 CosyVoice 这一多语言语音合成模型,其基于有监督的离散语音标记。通过采用带有两种流行生成模型(语言模型(LMs)和流匹配)的渐进式语义解码技术

    阅读全文
  • 文章封面

    CosyVoice:一种基于监督式语义标记的可扩展多语言 Zero-Shot 语音合成器

    作者:AI大模型调参指北笔记发布日期:2025-04-16 22:00:00

    Abstract近年来,基于大型语言模型(LLM)的文本转语音(TTS)技术呈现出一种主流化的趋势,这是因为其具有高度自然性和zero-shot能力。在这种模式下,语音信号被离散化为标记序列,这些序

    阅读全文
  • 文章封面

    LLM中的RAG检索内容,是如何应用的呢?需要在SFT阶段加入到answer中训练吗?

    作者:AI大模型调参指北笔记发布日期:2025-04-15 22:00:00

    LLM中的RAG检索内容,是如何应用的呢?需要在SFT阶段加入到answer中训练吗?Think嗯,用户问的是RAG在LLM中的应用,特别是是否需要将检索的内容在SFT阶段加入回答中进行训练。我需要

    阅读全文
  • 文章封面

    使用 Transformers, Accelerate和bitsandbytes 进行8-bit矩阵乘法

    作者:AI大模型调参指北笔记发布日期:2025-04-14 22:00:00

    Introduction语言模型一直在变得越来越大。在撰写本文时,PaLM有540B个参数,OPT、GPT-3和BLOOM有大约176B个参数,我们正在趋向于更大的模型。下图显示了一些最新语言模型的

    阅读全文
  • 文章封面

    Pygame RPG Tutorial 1 – Building the Base

    作者:指北笔记发布日期:2025-04-13 10:00:00

    Introduction这是我们Pygame RPG系列的第一个教程。在本教程中,我们将专注于为Pygame RPG构建整体“base”或“frame”。我们将首先解释我们将创造何种类型的RPG。解释

    阅读全文
  • 文章封面

    Pygame RPG Fighter – Game Tutorial

    作者:指北笔记发布日期:2025-04-12 22:50:41

    欢迎来到Pygame RPG教程系列。在这里,我们将解释如何使用Python中的Pygame库创建RPG战斗机风格的游戏。本教程系列的目的并不是提供给你一款带有故事,角色和渐进玩法系统的完整RPG游戏

    阅读全文
  • 文章封面

    压力测试LLMs——大海捞针实现

    作者:指北笔记发布日期:2025-04-11 22:00:00

    Needle In A Haystack - Pressure Testing LLMs一个简单的“大海捞针”分析来测试长上下文llm的上下文检索能力。在这里插入图片描述The Test1. Pla

    阅读全文
  • 文章封面

    REINFORCE++: 一种简单而有效的方法来对齐大型语言模型

    作者:指北笔记发布日期:2025-04-09 22:00:00

    REINFORCE++: A Simple and Efficient Approach for Aligning Large Language ModelsAbstract基于人类反馈的强化学习(

    阅读全文
上一页下一页