指北笔记

SuperGPQA 评估
作者：指北笔记发布日期：2025-03-15 22:00:00
SuperGPQA，这是一个综合基准，旨在评估285个研究生水平学科的大型语言模型（llm）的知识和推理能力。SuperGPQA每个学科至少有50个问题，涵盖了广泛的研究生水平主题，旨在成为LLM评
阅读全文
LLM评估集SuperGPQA
作者：指北笔记发布日期：2025-03-14 22:00:00
Abstract大型语言模型（llm）在数学、物理和计算机科学等主流学术学科中表现出了显著的熟练程度。然而，人类的知识涵盖了200多个专业学科，远远超出了现有基准的范围。LLM在许多这些专业领域的能
阅读全文
Refine Retrieval Quality with Rerank
作者：指北笔记发布日期：2025-03-13 22:00:00
在大规模构建向量搜索或检索增强生成（RAG）时，很难提高检索质量。质量的每一次提升都关系到用户体验的好坏。使用reranker可以在搜索过程中进一步细化检索到的文档，从而增加与用户查询的相关性。在大多
阅读全文
Metrics-Driven Agent Development
作者：指北笔记发布日期：2025-03-12 22:46:00
Retrieval Augmented Generation Assessment（RAGAS）是一个用于量化agent和RAG管道性能的评估框架。通过将评估添加到我们的工作流中，我们可以更可靠地迭代
阅读全文
Rerankers and Two-Stage Retrieval
作者：指北笔记发布日期：2025-03-11 22:00:00
Retrieval Augmented Generation（RAG）是一个重载术语。它向世界承诺，但在开发了RAG管道之后，我们中的许多人都想知道为什么它没有像我们预期的那样工作。与大多数工具一样，
阅读全文
Choosing an Embedding Model
作者：指北笔记发布日期：2025-03-10 22:00:00
我们大多数人都在使用OpenAI的Ada 002进行文本嵌入。原因是OpenAl建立了一个很好的嵌入模型，它比其他任何人都更容易使用。然而，这是很久以前的事了。看看MTEB排行榜，我们就会发现Ada并
阅读全文
RAG 中的 web retrieval 与 DeepSeek-R1 RAG Prompt
作者：指北笔记发布日期：2025-03-09 11:50:07
RAG 中的 web retrieval 与 DeepSeek-R1 RAG Promptenvspip install validators==0.34.0pip install pydantic
阅读全文
DeepSeek-R1关于RL中Environment Functions 的理解
作者：指北笔记发布日期：2025-03-08 09:00:00
1. RL中的环境函数怎么理解？Think嗯，我现在要理解强化学习中的环境函数是怎么回事。刚开始学强化学习，可能有点懵，不过慢慢来。首先，我记得强化学习里有智能体（agent）和环境（environm
阅读全文
DeepSeek-R1 对 LLM Post-Training 的思考
作者：指北笔记发布日期：2025-03-07 22:00:00
DeepSeek-R1 对 LLM Post-Training 的思考1. 一般LLM的聊天，role-play，RAG的是功能是在SFT阶段实现的，如果放到pre-training阶段是否合适，或
阅读全文
Vanilla Policy Gradient
作者：指北笔记发布日期：2025-03-06 22:00:00
Background策略梯度的关键思想是提高导致高回报的action的概率，降低导致低回报的action的概率，直到你达到最优策略。Quick FactsVPG is an on-policy alg
阅读全文
RL导论 - Policy Optimization
作者：指北笔记发布日期：2025-03-05 22:00:00
在本节中，我们将讨论策略优化算法的数学基础，并将材料与示例代码连接起来。我们将讨论policy gradients 理论中的三个关键结果：the simplest equation describin
阅读全文
动手复现 DeepSeek-R1-Zero 顿悟时刻
作者：指北笔记发布日期：2025-03-04 22:00:00
动手复现 DeepSeek-R1-Zero 顿悟时刻开源复现 DeepSeek-R1-Zero 的工程在这里插入图片描述• GRPO 开源实现• trl grpo trainer：TRL 的 GRP
阅读全文
RL导论- RL算法的分类
作者：指北笔记发布日期：2025-03-03 22:00:00
现在我们已经学习了强化学习术语和符号的基础知识，我们可以介绍一些更丰富的内容：现代强化学习算法的概况，以及算法设计中各种权衡的描述。A Taxonomy of RL AlgorithmsA non-e
阅读全文
transformers 的采样方式
作者：指北笔记发布日期：2025-02-28 22:18:11
Introduction近年来，随着以 OpenAI GPT2 模型为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起，开放域语言生成领域吸引了越来越多的关注。开放域中的条
阅读全文
RL导论- RL中的关键概念
作者：指北笔记发布日期：2025-02-27 22:00:00
Introduction to RL - Key Concepts in RL欢迎来到我们的强化学习简介！在这里，我们想让你了解• the language and notation used to
阅读全文
LLM 强化学习对齐综述下篇
作者：指北笔记发布日期：2025-02-26 22:00:00
Direct Human Preference Optimization传统的RLHF方法通常涉及优化基于人类偏好的Reward function。虽然这种方法是有效的，但它可能会带来一些挑战，比如
阅读全文
LLM 强化学习对齐综述上篇
作者：指北笔记发布日期：2025-02-25 22:00:00
ABSTRACT随着自我监督学习的进步、预训练语料库中数万亿个令牌的可用性、指令微调以及具有数十亿个参数的large trasnformers 的开发，大型语言模型（llm）现在能够对人类查询生成事实
阅读全文
DeepSeek-R1-Zero 起源与 GRPO 方法
作者：指北笔记发布日期：2025-02-24 22:00:00
DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsAbstract数学推理由于其复杂
阅读全文
Duplex Conversation: Towards Human-like Interaction
作者：指北笔记发布日期：2025-02-21 22:03:40
ABSTRACTDuplex Conversation，是一个多轮、多模态的口语对话系统，它使基于电话的代理能够像人类一样与客户进行交互。我们用电信中全双工的概念来演示类似人类的交互体验应该是什么，以
阅读全文
DeepSeek中多Token预测的起源
作者：指北笔记发布日期：2025-02-20 22:00:00
Abstract像GPT和Llama这样的大型语言模型是用next-token预测损失来训练的。在这项工作中，我们建议训练语言模型一次预测多个未来标记可以提高样本效率。更具体地说，在训练语料库中的每个
阅读全文
DeepSeek V3 中 AUXILIARY-LOSS-FREE LOAD BALANCING STRATEGY 的由来
作者：指北笔记发布日期：2025-02-19 22:00:00
ABSTRACT对于混合专家（MoE）模型，不平衡的专家负载将导致路由崩溃或增加计算开销。现有方法通常采用辅助损失来促进负载平衡，但较大的辅助损耗会在训练中引入不可忽略的干扰梯度，从而影响模型的性能。
阅读全文