全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    Pygame Platformer III– Level Generation

    作者:指北笔记发布日期:2025-03-28 23:01:57

    关卡生成是一个很难在Pygame或任何游戏引擎中完美执行的概念。大多数人尝试通过单独定义每个关卡布局来手动创建关卡。在某些拥有一定数量地图或关卡的冒险游戏中,这是可行的,但在平台游戏中,这是非常有限的

    阅读全文
  • 文章封面

    vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttention

    作者:指北笔记发布日期:2025-03-27 22:00:00

    vLLM: Easy, Fast, and Cheap LLM Serving with PagedAttentionLLM承诺从根本上改变我们在所有行业使用人工智能的方式。然而,实际上为这些模型提

    阅读全文
  • 文章封面

    Fully Sharded Data Parallelism (FSDP)

    作者:指北笔记发布日期:2025-03-26 22:00:00

    Fully Sharded Data Parallelism (FSDP)在这篇博客中,我们将探索完全分片数据并行(FSDP),这是一种允许以分布式方式高效训练大型神经网络模型的技术。我们将从鸟瞰的

    阅读全文
  • 文章封面

    什么是拒绝抽样?

    作者:指北笔记发布日期:2025-03-25 22:21:00

    What is Rejection Sampling?拒绝抽样是一种蒙特卡罗算法,在代理分布的帮助下从复杂(“难以抽样”)分布中抽样数据。蒙特卡洛是什么?如果一种方法/算法使用随机数来解决问题,它被

    阅读全文
  • 文章封面

    TRL 关于 GRPO Trainer 的实现

    作者:指北笔记发布日期:2025-03-24 22:00:00

    TRL 关于 GRPO Trainer的实现OverviewTRL支持GRPO Trainer来训练语言模型,如论文 DeepSeekMath: Pushing the Limits of Math

    阅读全文
  • 文章封面

    Pygame Platformer II– adding Gravity and Jumping

    作者:指北笔记发布日期:2025-03-23 20:00:00

    欢迎来到Pygame游戏编程的第2部分。在本节中,我们将讨论两个主要主题,即赋予玩家跳跃的能力和重力的实现。Part 1 – Code下面是第1部分中的代码,我们将使用它作为本文其余部分的参考。重力和

    阅读全文
  • 文章封面

    Pygame Platformer I– Game Development

    作者:指北笔记发布日期:2025-03-21 22:00:00

    欢迎来到Pygame平台游戏开发!在本节中,我们将使用Python游戏库Pygame构建一款2D Platformer游戏。要提醒所有读者的是,本文主要针对已经对Pygame有些熟悉的读者。我们将只略

    阅读全文
  • 文章封面

    Step-Audio:智能语音的统一理解与生成

    作者:指北笔记发布日期:2025-03-20 22:00:00

    实时语音交互作为人机协作的基本接口,具有巨大的潜力。然而,目前的开源模型面临着语音数据采集成本高、动态控制能力弱、智能有限等局限性。为了应对这些挑战,本文介绍了Step-Audio,这是第一个生产就

    阅读全文
  • 文章封面

    FLOW-MATCHING TTS的时变情绪状态控制

    作者:指北笔记发布日期:2025-03-19 22:00:00

    ABSTRACT人们改变声调,通常伴随着非语言发声(NVs, nonverbal vocalizations),如笑和哭,以传达丰富的情感。然而,大多数文本到语音(TTS)系统缺乏生成具有丰富情感的语

    阅读全文
  • 文章封面

    AutoModelForCausalLMWithValueHead是什么?

    作者:指北笔记发布日期:2025-03-18 22:00:00

    Mainly, PPO optimization (a RLHF technique) relies on computing “advantages” associated with taking

    阅读全文
  • 文章封面

    Emo-DPO: 基于直接偏好优化的可控情绪语音合成

    作者:指北笔记发布日期:2025-03-17 22:00:00

    Abstract目前的情感文本到语音(TTS)模型主要通过监督训练来学习从文本和期望的情感到其情感语音的转换,关注每个文本到语音对的单个情感。这些模型只学习正确的情绪输出,而没有完全理解其他情绪特征,

    阅读全文
  • 文章封面

    Efficient Infinite Context Transformers with Infini-attention

    作者:指北笔记发布日期:2025-03-16 22:00:00

    Abstract这项工作介绍了一种有效的方法,将基于transformer的大语言模型(llm)扩展到具有有限内存和计算的无限长输入。我们提出的方法的一个关键组成部分是一种新的注意力技术,称为Infi

    阅读全文
  • 文章封面

    SuperGPQA 评估

    作者:指北笔记发布日期:2025-03-15 22:00:00

    SuperGPQA,这是一个综合基准,旨在评估285个研究生水平学科的大型语言模型(llm)的知识和推理能力。SuperGPQA每个学科至少有50个问题,涵盖了广泛的研究生水平主题,旨在成为LLM评

    阅读全文
  • 文章封面

    LLM评估集SuperGPQA

    作者:指北笔记发布日期:2025-03-14 22:00:00

    Abstract大型语言模型(llm)在数学、物理和计算机科学等主流学术学科中表现出了显著的熟练程度。然而,人类的知识涵盖了200多个专业学科,远远超出了现有基准的范围。LLM在许多这些专业领域的能

    阅读全文
  • 文章封面

    Refine Retrieval Quality with Rerank

    作者:指北笔记发布日期:2025-03-13 22:00:00

    在大规模构建向量搜索或检索增强生成(RAG)时,很难提高检索质量。质量的每一次提升都关系到用户体验的好坏。使用reranker可以在搜索过程中进一步细化检索到的文档,从而增加与用户查询的相关性。在大多

    阅读全文
  • 文章封面

    Metrics-Driven Agent Development

    作者:指北笔记发布日期:2025-03-12 22:46:00

    Retrieval Augmented Generation Assessment(RAGAS)是一个用于量化agent和RAG管道性能的评估框架。通过将评估添加到我们的工作流中,我们可以更可靠地迭代

    阅读全文
  • 文章封面

    Rerankers and Two-Stage Retrieval

    作者:指北笔记发布日期:2025-03-11 22:00:00

    Retrieval Augmented Generation(RAG)是一个重载术语。它向世界承诺,但在开发了RAG管道之后,我们中的许多人都想知道为什么它没有像我们预期的那样工作。与大多数工具一样,

    阅读全文
  • 文章封面

    Choosing an Embedding Model

    作者:指北笔记发布日期:2025-03-10 22:00:00

    我们大多数人都在使用OpenAI的Ada 002进行文本嵌入。原因是OpenAl建立了一个很好的嵌入模型,它比其他任何人都更容易使用。然而,这是很久以前的事了。看看MTEB排行榜,我们就会发现Ada并

    阅读全文
  • 文章封面

    RAG 中的 web retrieval 与 DeepSeek-R1 RAG Prompt

    作者:指北笔记发布日期:2025-03-09 11:50:07

    RAG 中的 web retrieval 与 DeepSeek-R1 RAG Promptenvspip install validators==0.34.0pip install pydantic

    阅读全文
  • 文章封面

    DeepSeek-R1关于RL中Environment Functions 的理解

    作者:指北笔记发布日期:2025-03-08 09:00:00

    1. RL中的环境函数怎么理解?Think嗯,我现在要理解强化学习中的环境函数是怎么回事。刚开始学强化学习,可能有点懵,不过慢慢来。首先,我记得强化学习里有智能体(agent)和环境(environm

    阅读全文
  • 文章封面

    DeepSeek-R1 对 LLM Post-Training 的思考

    作者:指北笔记发布日期:2025-03-07 22:00:00

    DeepSeek-R1 对 LLM Post-Training 的思考1. 一般LLM的聊天,role-play,RAG的是功能是在SFT阶段实现的,如果放到pre-training阶段是否合适,或

    阅读全文
  • 文章封面

    Vanilla Policy Gradient

    作者:指北笔记发布日期:2025-03-06 22:00:00

    Background策略梯度的关键思想是提高导致高回报的action的概率,降低导致低回报的action的概率,直到你达到最优策略。Quick FactsVPG is an on-policy alg

    阅读全文
  • 文章封面

    RL导论 - Policy Optimization

    作者:指北笔记发布日期:2025-03-05 22:00:00

    在本节中,我们将讨论策略优化算法的数学基础,并将材料与示例代码连接起来。我们将讨论policy gradients 理论中的三个关键结果:the simplest equation describin

    阅读全文
  • 文章封面

    动手复现 DeepSeek-R1-Zero 顿悟时刻

    作者:指北笔记发布日期:2025-03-04 22:00:00

    动手复现 DeepSeek-R1-Zero 顿悟时刻开源复现 DeepSeek-R1-Zero 的工程在这里插入图片描述• GRPO 开源实现• trl grpo trainer:TRL 的 GRP

    阅读全文
  • 文章封面

    RL导论- RL算法的分类

    作者:指北笔记发布日期:2025-03-03 22:00:00

    现在我们已经学习了强化学习术语和符号的基础知识,我们可以介绍一些更丰富的内容:现代强化学习算法的概况,以及算法设计中各种权衡的描述。A Taxonomy of RL AlgorithmsA non-e

    阅读全文
  • 文章封面

    transformers 的采样方式

    作者:指北笔记发布日期:2025-02-28 22:18:11

    Introduction近年来,随着以 OpenAI GPT2 模型 为代表的基于数百万网页数据训练的大型 Transformer 语言模型的兴起,开放域语言生成领域吸引了越来越多的关注。开放域中的条

    阅读全文
  • 文章封面

    RL导论- RL中的关键概念

    作者:指北笔记发布日期:2025-02-27 22:00:00

    Introduction to RL - Key Concepts in RL欢迎来到我们的强化学习简介!在这里,我们想让你了解• the language and notation used to

    阅读全文
  • 文章封面

    LLM 强化学习对齐综述 下篇

    作者:指北笔记发布日期:2025-02-26 22:00:00

    Direct Human Preference Optimization传统的RLHF方法通常涉及优化基于人类偏好的Reward function。虽然这种方法是有效的,但它可能会带来一些挑战,比如

    阅读全文
  • 文章封面

    LLM 强化学习对齐综述 上篇

    作者:指北笔记发布日期:2025-02-25 22:00:00

    ABSTRACT随着自我监督学习的进步、预训练语料库中数万亿个令牌的可用性、指令微调以及具有数十亿个参数的large trasnformers 的开发,大型语言模型(llm)现在能够对人类查询生成事实

    阅读全文
  • 文章封面

    DeepSeek-R1-Zero 起源与 GRPO 方法

    作者:指北笔记发布日期:2025-02-24 22:00:00

    DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language ModelsAbstract数学推理由于其复杂

    阅读全文
上一页下一页