AI大模型调参指北笔记

TensorRT-LLM 0.5.0 源码之二十九
作者：AI大模型调参指北笔记发布日期：2026-07-20 22:00:02
TensorDataTypetypedef enum datatype_enum{ TYPE_INVALID, TYPE_BOOL, TYPE_UINT8, TYPE_UIN
阅读全文
TensorRT-LLM 0.5.0 源码之二十八
作者：AI大模型调参指北笔记发布日期：2026-07-19 21:00:00
cudaTypeUtils#include "tensorrt_llm/common/cudaBf16Fallbacks.cuh"#include "tensorrt_llm/common/cuda
阅读全文
信息差的消失
作者：AI大模型调参指北笔记发布日期：2026-07-17 21:00:00
要理解数字化与AI是如何削弱中层“信息差”价值的，我们首先要明白一个残酷的职场真相：在传统的企业科层制中，中层管理者的权力和存在感，很大程度上来源于他们对信息的“垄断”、“过滤”和“加工”。过去，高
阅读全文
Agent 数据生产与训练
作者：AI大模型调参指北笔记发布日期：2026-07-16 21:00:00
一场杜撰的故事。「先跑现成Agent → 录制真实交互轨迹 → 清洗后SFT」是成熟迭代阶段的做法；但冷启动没有Agent时，工业界90%场景靠「大模型蒸馏合成轨迹」量产SFT数据，不用真实Agen
阅读全文
基准测试设计：选择开放模型测试与封闭模型测试
作者：AI大模型调参指北笔记发布日期：2026-07-15 21:00:00
设计基准测试时，需要确定的核心环节之一，是如何借助负载测试工具最贴合地模拟真实业务场景。两种最常用的测试方法均源自排队论，分别为开放模型与封闭模型。本文将解答基准测试设计中的两个核心问题：• 用通俗
阅读全文
gRPC 使用建议
作者：AI大模型调参指北笔记发布日期：2026-07-14 21:00:00
建立channel后何时建立socket链接建立 gRPC Channel 后，并不一定立即就存在一个活跃的 socket 连接。其连接行为与 gRPC Channel 的状态机模型紧密相关。下面这
阅读全文
flashinfer.sampling 实现四
作者：AI大模型调参指北笔记发布日期：2026-07-13 21:00:00
compilerdef compile_pipeline( ops: List[Op], custom_fusion_rules: Optional[List[FusionRule]]
阅读全文
AI 时代的组织变更
作者：AI大模型调参指北笔记发布日期：2026-07-10 21:00:00
近年来，各大互联网大厂（如阿里、腾讯、百度、字节等）乃至许多传统行业的头部企业，都在密集进行“整顿中层”、“管理扁平化”的组织变革。这种现象并非偶然的人事调整，而是企业在面对宏观环境、技术变革和内部
阅读全文
TensorRT-LLM 0.5.0 源码之二十七
作者：AI大模型调参指北笔记发布日期：2026-07-09 21:00:00
cublasMMWrapper#include "tensorrt_llm/common/cudaUtils.h"#include <cublasLt.h>#include <cublas_v2.h
阅读全文
flashinfer.sampling 实现三
作者：AI大模型调参指北笔记发布日期：2026-07-07 21:00:00
fusion_rulesclass FusionRule(NamedTuple): """ Attributes: pattern: Tuple of operator t
阅读全文
Trae IDE 实战指南：核心AI功能、Skill运用与项目开发全流程
作者：AI大模型调参指北笔记发布日期：2026-07-03 21:00:00
在AI编程飞速发展的今天，字节跳动推出的Trae IDE（The Real AI Engineer）凭借“AI原生集成”的核心优势，彻底改变了传统开发模式。它不仅是一款代码编辑器，更是能与开发者协同
阅读全文
Small matrix multiplication - Triton
作者：AI大模型调参指北笔记发布日期：2026-07-02 21:00:00
这是一个性能较低的简易矩阵乘法实现。它仅在 BLOCK_SIZE 大于矩阵内维度时有效，会加载完整的X矩阵行和Y矩阵列，再执行乘法运算。矩阵乘法有更优的实现方式，本示例仅用于学习。首先，我们定义用于
阅读全文
从空文件夹到生成图表：Claude Code 实战教程
作者：AI大模型调参指北笔记发布日期：2026-07-01 21:00:00
在上一篇文章中，我详细介绍了Claude Code的搭建方法，并从宏观层面探讨了如何将其作为工具使用。现在，让我们进行实际操作。今天的问题是：在过去50年里，房主的年龄分布发生了怎样的变化？这个话题
阅读全文
Claude Code 入门：研究者配置指南
作者：AI大模型调参指北笔记发布日期：2026-06-29 21:00:00
过去一两年，我一直在科研工作中使用AI编程工具。去年秋天开始使用Claude Code后，工作效率更是大幅提升。如今你大概率早已了解智能自主人工智能，以及它革新编程与科研领域的各类方式。眼下越来越多
阅读全文
Claude Code 究竟擅长什么？一次实测验证
作者：AI大模型调参指北笔记发布日期：2026-06-25 21:00:00
2025年初Claude Code发布时，我就率先开始使用了。9个月后，我想复盘一下这段使用经历带来的心得（过程中有时气得想放弃，有时又能高效沉浸在工作状态里）。部分结论也来自对其他AI编程助手的基
阅读全文
Py-spy：一款强大易用的Python性能分析工具
作者：AI大模型调参指北笔记发布日期：2026-06-24 22:15:14
Py-spy：基于Rust、低开销的Python性能分析器，用于实时性能分析。无需修改代码，适配生产环境调试Py-spy 是一款功能强大的 Python 程序采样分析器，可让你直观查看 Python
阅读全文
GLM-5.2：面向长时序任务打造
作者：AI大模型调参指北笔记发布日期：2026-06-23 21:00:00
GLM-5.2 是一款面向长时序任务的全新旗舰大模型。相比前代 GLM-5.1，它在长时序任务能力上实现跨越式提升，首次稳定支持 100 万 Token 上下文窗口。GLM-5.2 全新能力如下：1
阅读全文
TensorRT-LLM 0.5.0 源码之二十六
作者：AI大模型调参指北笔记发布日期：2026-06-21 21:00:00
cudaFp8Utils#include <cuda_fp8.h>#include <cuda_runtime.h>#define FP8_MHA#define FUSE_GEMM_ACT#defi
阅读全文
什么是循环工程？AI 编码智能体的新范式
作者：AI大模型调参指北笔记发布日期：2026-06-19 21:40:51
循环工程用基于目标的自动化取代了手动提示词。了解什么是循环、它如何运作，以及在 AI 工作流中何时使用它。从提示词到流程：为什么 AI 智能体需要循环人们对 AI 生产力的认知正在发生转变。早期的工
阅读全文
Fable 5 依托自修正循环：训练效率提升6倍，验证覆盖率达73%
作者：AI大模型调参指北笔记发布日期：2026-06-18 21:00:00
Anthropic 工程师兰斯·马丁提出，Claude Fable 5 这类神话级（Mythos）模型的运行范式已经彻底转变：不再依靠持续人工输入提示词，而是以自修正循环作为核心架构。这一核心变革依
阅读全文
Fable 5的核心“秘方”：神话级能力的五大技术支柱
作者：AI大模型调参指北笔记发布日期：2026-06-17 21:00:00
Fable 5作为Anthropic首款面向公众开放的Mythos级模型，其“厉害之处”并非单一技术突破，而是五大核心能力的协同进化，彻底重塑了AI处理复杂任务的范式。一、核心引擎：自适应思考（Ad
阅读全文
Anthropic Fable 5
作者：AI大模型调参指北笔记发布日期：2026-06-16 21:00:00
本文是针对Anthropic最新旗舰大模型Claude Fable 5的专业短评，聚焦模型实测表现、核心优势与现存短板，客观梳理模型综合实用性。一、整体评价Anthropic于2026年6月9日正式
阅读全文
循环工程（Loop Engineering）
作者：AI大模型调参指北笔记发布日期：2026-06-15 21:00:00
循环工程，就是用设计系统来取代你自己作为给 AI 代理发提示词的那个人。这里的"循环"可以理解为一个递归目标——你定义一个目的，AI 反复迭代直到完成。我认为这可能是我们未来与编码代理协作的方式。
阅读全文
Agent SFT 标准数据格式 + Loss Mask 完整实现
作者：AI大模型调参指北笔记发布日期：2026-06-14 11:03:23
1. 普通 SFT vs Agent SFT 数据格式对比先明确核心差异，再给完整示例：1.1 普通 SFT 格式（静态问答对）{ "conversations": [ { "ro
阅读全文
4D Parallelism
作者：AI大模型调参指北笔记发布日期：2026-06-11 22:16:59
为了对我们最大的模型进行规模训练，我们采用了 4D 并行技术——将四种不同的并行方法组合在一起——来分割模型。这种方法能有效地将计算分布到多个 GPU 上，并确保每个 GPU 的模型参数、优化器状态
阅读全文
TileLang与OpenAI Triton的核心区别
作者：AI大模型调参指北笔记发布日期：2026-06-09 21:00:00
TileLang与OpenAI Triton均为面向AI系统的Python嵌入式领域特定语言（DSL），旨在简化高性能GPU内核开发，同时提供比CUDA更易用的编程接口。然而，两者在设计理念、抽象层
阅读全文
TensorRT-LLM 0.5.0 源码之二十五
作者：AI大模型调参指北笔记发布日期：2026-06-08 21:29:17
cudaDriverWrapper#define cuErrCheck(stat, wrap)
阅读全文
TensorRT-LLM 0.5.0 源码之二十四
作者：AI大模型调参指北笔记发布日期：2026-06-07 21:00:00
cudaUtils// workspace for cublas gemm : 32MB#define CUBLAS_WORKSPACE_SIZE 33554432typedef struct __
阅读全文
TensorRT-LLM 0.5.0 源码之二十三
作者：AI大模型调参指北笔记发布日期：2026-06-04 21:00:00
mpiUtils#include <mpi.h>#define COMM_WORLD MpiComm(MPI_COMM_WORLD)#define MPICHECK(cmd)
阅读全文
Agent SFT 数据
作者：AI大模型调参指北笔记发布日期：2026-06-03 21:00:00
Agent模型的训练数据与**普通SFT（监督微调）**的核心差异在于：数据结构从“静态问答对”升级为“动态交互轨迹（Trajectory）”，并引入工具调用、多轮决策、异常处理等复杂范式，训练目标
阅读全文