全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    TensorRT-LLM 0.5.0 源码之十一

    作者:AI大模型调参指北笔记发布日期:2026-04-22 21:00:00

    mlp.py在这里插入图片描述MLPclass MLP(Module): def __init__(self, hidden_size,

    阅读全文
  • 文章封面

    AI原生开发中的MCP与CLI对比

    作者:AI大模型调参指北笔记发布日期:2026-04-20 21:00:00

    摘要CLI与MCP的选择,本质取决于你处于开发流程的哪个环节。CLI适配开发内循环:快速、本地、零开销。MCP服务适配开发外循环:对接外部系统、共享基础设施、提供结构化访问。绝大多数团队需要两者结合

    阅读全文
  • 文章封面

    T&& 万能引用

    作者:AI大模型调参指北笔记发布日期:2026-04-18 21:00:00

    在 C 模板中,`&&` 的行为与普通右值引用不同,它被称为 **万能引用(Universal Reference)** 或 **转发引用(Forwarding Reference)**。其核心特性

    阅读全文
  • 文章封面

    flashinfer.sampling 实现一

    作者:AI大模型调参指北笔记发布日期:2026-04-17 21:00:00

    jit.sampling# jit/env.py_package_root: pathlib.Path = pathlib.Path(__file__).resolve().parents[1]FL

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之十

    作者:AI大模型调参指北笔记发布日期:2026-04-15 21:00:00

    linear.pydef _gemm_plugin(input: Tensor, mat2: Tensor, transa: bool

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之九

    作者:AI大模型调参指北笔记发布日期:2026-04-14 21:00:00

    embedding.pyclass Embedding(Module): """ The embedding layer takes input indices (x) and the

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之八

    作者:AI大模型调参指北笔记发布日期:2026-04-13 21:00:00

    activation.pyclass Mish(Module): def forward(self, input): return input * tanh(softplus(i

    阅读全文
  • 文章封面

    C++ 中 ... 符号

    作者:AI大模型调参指北笔记发布日期:2026-04-12 21:00:00

    在 C 模板语法中,`template` 中的 `...` 是 **参数包展开运算符**,用于声明**可变参数模板**(Variadic Template)。它的核心作用是让模板能够接受**任意数量

    阅读全文
  • 文章封面

    Qwen3-TTS 技术报告

    作者:AI大模型调参指北笔记发布日期:2026-04-11 21:00:00

    摘要本报告提出Qwen3-TTS 系列模型,这是一套先进的多语言、可控制、高鲁棒、流式文本转语音模型家族。Qwen3-TTS 支持当前最优的 3 秒语音克隆与基于文本描述的语音控制,既可生成全新音色

    阅读全文
  • 文章封面

    Vibe Coding 氛围编程最佳实践

    作者:AI大模型调参指北笔记发布日期:2026-04-10 21:00:00

    Vibe Coding 核心是依托氛围进入心流,以创意、快速迭代为目标,常结合AI辅助完成原型开发、创意编程,区别于传统严谨工程化开发,以下是完整最佳实践:一、核心原则1. 先跑通逻辑,再追求规范

    阅读全文
  • 文章封面

    Paged Attention, IFB, and Request Scheduling

    作者:AI大模型调参指北笔记发布日期:2026-04-09 21:00:00

    In-flight BatchingTensorRT LLM 支持请求的在途批量处理(也称为连续批量处理或迭代级别批量处理),以提高服务吞吐量。通过此功能,上下文阶段的序列可以与生成阶段的序列一起进

    阅读全文
  • 文章封面

    VoxCPM 模型结构

    作者:AI大模型调参指北笔记发布日期:2026-04-07 21:09:00

    Audio VAEclass AudioVAE(nn.Module): """ Args: """ def __init__( self, enc

    阅读全文
  • 文章封面

    理解 VoxCPM 模型

    作者:AI大模型调参指北笔记发布日期:2026-04-06 21:00:00

    在这里插入图片描述这是 VoxCPM,一款由 OpenBMB 推出的无分词器(Tokenizer-Free)端到端文本转语音(TTS)模型。它通过分层语言建模和扩散自回归架构,直接生成连续的语音表示

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之七

    作者:AI大模型调参指北笔记发布日期:2026-04-03 21:00:00

    graph_rewriting.pyLayerclass Layer: ''' Layer is a wrapper for TensorRT's ILayer with several

    阅读全文
  • 文章封面

    Claude Code 源码泄露:伪造工具、挫败感正则、卧底模式及更多

    作者:AI大模型调参指北笔记发布日期:2026-04-02 21:00:00

    Anthropic 在其 npm 包中意外附带了源映射文件,导致 Claude Code 完整源码暴露。本文带你深挖其中的核心细节。以当邵超凡(Chaofan Shou)今早发现,Anthropic

    阅读全文
  • 文章封面

    Claude Code代码泄露事件-愚人节前的礼物

    作者:AI大模型调参指北笔记发布日期:2026-04-01 21:00:00

    事件核心概览2026年3月31日(愚人节前夜),Anthropic旗下AI编程工具Claude Code的完整源代码意外泄露,起因是npm包发布时的配置失误,而非黑客攻击。安全研究员Chaofan

    阅读全文
  • 文章封面

    Multi-Head, Multi-Query, and Group-Query Attention

    作者:AI大模型调参指北笔记发布日期:2026-03-31 21:55:00

    本文件详细介绍了在 TensorRT LLM 的 PyTorch 后端中,针对自回归模型实现的多头注意力(MHA)、多查询注意力(MQA)和分组查询注意力(GQA)的具体方法。多头注意力机制涉及一系

    阅读全文
  • 文章封面

    How to debug TensorRT-LLM

    作者:AI大模型调参指北笔记发布日期:2026-03-30 21:00:00

    Overview通常,在调试 TensorRT-LLM 模型时,我们希望打印出中间的张量值。TensorRT-LLM 遵循“define-and-run”的模式,因此我们需要将感兴趣的中间张量标记为

    阅读全文
  • 文章封面

    如何定位TensorRT的库和头文件

    作者:AI大模型调参指北笔记发布日期:2026-03-27 21:00:00

    在 CMake 项目中成功使用 find_package(TensorRT) 来定位和链接 TensorRT 库,关键在于确保 CMake 能够找到其特定的配置文件。由于 TensorRT 的安装方

    阅读全文
  • 文章封面

    PagedAttention

    作者:AI大模型调参指北笔记发布日期:2026-03-25 21:00:00

    What is PagedAttention?随着大型语言模型(LLM)的发展,许多行业都在开发并利用这些模型为各种目的服务。像 GPT-4、Claude、Gemini 等众多模型已展现出理解、生成

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之六

    作者:AI大模型调参指北笔记发布日期:2026-03-24 21:00:00

    network.py_UniqueNameGenerator# name1 = generator('UserService', 'com.moduleA') # 返回 'com/moduleA/

    阅读全文
  • 文章封面

    如何优化 regex_replace loop ?

    作者:AI大模型调参指北笔记发布日期:2026-03-23 18:04:00

    下面是待优化的代码,正则表达是已经预编译了,但性能还是差,大概需要 1.3ms 左右,优化后只需 33us。这里的pattern类似app,replacement类似a p p,模式简单,所以可以考

    阅读全文
  • 文章封面

    什么是 Programmatic Dependent Launch

    作者:AI大模型调参指北笔记发布日期:2026-03-20 21:05:00

    Programmatic Dependent Launch (PDL) 是 NVIDIA 在 Hopper 架构中引入的一项关键技术,主要用于优化GPU内核(Kernel)的调度和执行效率。其核心目

    阅读全文
  • 文章封面

    在 Nginx 中为 WebSocket 配置负载均衡

    作者:AI大模型调参指北笔记发布日期:2026-03-18 21:00:00

    在 Nginx 中为 WebSocket (WS) 配置负载均衡,关键在于正确设置协议升级和保持长连接。下面是一个清晰的配置指南和实例。核心配置步骤WebSocket 连接始于一个 HTTP 升级请

    阅读全文
  • 文章封面

    多线程中如何正确使用 libcuckoo 库

    作者:AI大模型调参指北笔记发布日期:2026-03-16 22:00:00

    libcuckoo 被设计为一个高性能的并发哈希表,其“正确使用”的核心在于理解它提供的线程安全保证和相应的 API。下面我将详细解释在多线程编程中如何正确使用 libcuckoo。核心思想:线程安

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之五

    作者:AI大模型调参指北笔记发布日期:2026-03-13 21:00:00

    functional.pydef constant(ndarray: np.ndarray) -> Tensor: ''' Add a constant layer. Tensor

    阅读全文
  • 文章封面

    如何让AI听懂你的“话外音”?GOAT-SLM模型实现更懂情感的语言交互

    作者:AI大模型调参指北笔记发布日期:2026-03-11 21:00:00

    Abstract端到端语音语言模型(SLM)的最新进展显著提升了人工智能系统进行自然语音交互的能力。然而,大多数现有模型仅仅将语音视为语言内容的载体,常常忽略了人类语音中蕴含的丰富副语言和说话者特征

    阅读全文
  • 文章封面

    TensorRT-LLM 0.5.0 源码之四

    作者:AI大模型调参指北笔记发布日期:2026-03-10 21:00:00

    builder.pyclass _BuildingFlag: def __enter__(self): os.environ['IS_BUILDING'] = '1' de

    阅读全文
  • 文章封面

    TensorRT-LLM 开发环境构建

    作者:AI大模型调参指北笔记发布日期:2026-03-09 22:00:00

    看了 0.17.0 的 release note 得知基础镜像为 nvcr.io/nvidia/pytorch:25.01-py3, TensorRT 依赖 10.8.0, CUDA 依赖 12.8

    阅读全文
  • 文章封面

    TensorRT-LLM 构图

    作者:AI大模型调参指北笔记发布日期:2026-03-05 21:00:00

    trtllm 使用 Module 模块实现 Layer 的构图。class Module(object): def __init__(self) -> None: self._m

    阅读全文
下一页