全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    RL导论 - Policy Optimization

    作者:指北笔记发布日期:2025-03-05 22:00:00

    在本节中,我们将讨论策略优化算法的数学基础,并将材料与示例代码连接起来。我们将讨论policy gradients 理论中的三个关键结果:the simplest equation describin

    阅读全文
  • 文章封面

    动手复现 DeepSeek-R1-Zero 顿悟时刻

    作者:指北笔记发布日期:2025-03-04 22:00:00

    动手复现 DeepSeek-R1-Zero 顿悟时刻开源复现 DeepSeek-R1-Zero 的工程在这里插入图片描述• GRPO 开源实现• trl grpo trainer:TRL 的 GRP

    阅读全文
  • 文章封面

    RL导论- RL算法的分类

    作者:指北笔记发布日期:2025-03-03 22:00:00

    现在我们已经学习了强化学习术语和符号的基础知识,我们可以介绍一些更丰富的内容:现代强化学习算法的概况,以及算法设计中各种权衡的描述。A Taxonomy of RL AlgorithmsA non-e

    阅读全文
  • 文章封面

    transformers 的采样方式

    作者:指北笔记发布日期:2025-02-28 22:18:11

    Introduction近年来,随着以 OpenAI GPT2 模型 为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起,开放域语言生成领域吸引了越来越多的关注。开放域中的条

    阅读全文
  • 文章封面

    RL导论- RL中的关键概念

    作者:指北笔记发布日期:2025-02-27 22:00:00

    Introduction to RL - Key Concepts in RL欢迎来到我们的强化学习简介!在这里,我们想让你了解• the language and notation used to

    阅读全文
  • 文章封面

    LLM 强化学习对齐综述 下篇

    作者:指北笔记发布日期:2025-02-26 22:00:00

    Direct Human Preference Optimization传统的RLHF方法通常涉及优化基于人类偏好的Reward function。虽然这种方法是有效的,但它可能会带来一些挑战,比如

    阅读全文
  • 文章封面

    LLM 强化学习对齐综述 上篇

    作者:指北笔记发布日期:2025-02-25 22:00:00

    ABSTRACT随着自我监督学习的进步、预训练语料库中数万亿个令牌的可用性、指令微调以及具有数十亿个参数的large trasnformers 的开发,大型语言模型(llm)现在能够对人类查询生成事实

    阅读全文
  • 文章封面

    DeepSeek-R1-Zero 起源与 GRPO 方法

    作者:指北笔记发布日期:2025-02-24 22:00:00

    DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsAbstract数学推理由于其复杂

    阅读全文
  • 文章封面

    Duplex Conversation: Towards Human-like Interaction

    作者:指北笔记发布日期:2025-02-21 22:03:40

    ABSTRACTDuplex Conversation,是一个多轮、多模态的口语对话系统,它使基于电话的代理能够像人类一样与客户进行交互。我们用电信中全双工的概念来演示类似人类的交互体验应该是什么,以

    阅读全文
  • 文章封面

    DeepSeek中多Token预测的起源

    作者:指北笔记发布日期:2025-02-20 22:00:00

    Abstract像GPT和Llama这样的大型语言模型是用next-token预测损失来训练的。在这项工作中,我们建议训练语言模型一次预测多个未来标记可以提高样本效率。更具体地说,在训练语料库中的每个

    阅读全文
  • 文章封面

    DeepSeek V3 中 AUXILIARY-LOSS-FREE LOAD BALANCING STRATEGY 的由来

    作者:指北笔记发布日期:2025-02-19 22:00:00

    ABSTRACT对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或增加计算开销。现有方法通常采用辅助损失来促进负载平衡,但较大的辅助损耗会在训练中引入不可忽略的干扰梯度,从而影响模型的性能。

    阅读全文
上一页