全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    Duplex Conversation: Towards Human-like Interaction

    作者:指北笔记发布日期:2025-02-21 22:03:40

    ABSTRACTDuplex Conversation,是一个多轮、多模态的口语对话系统,它使基于电话的代理能够像人类一样与客户进行交互。我们用电信中全双工的概念来演示类似人类的交互体验应该是什么,以

    阅读全文
  • 文章封面

    DeepSeek中多Token预测的起源

    作者:指北笔记发布日期:2025-02-20 22:00:00

    Abstract像GPT和Llama这样的大型语言模型是用next-token预测损失来训练的。在这项工作中,我们建议训练语言模型一次预测多个未来标记可以提高样本效率。更具体地说,在训练语料库中的每个

    阅读全文
  • 文章封面

    DeepSeek V3 中 AUXILIARY-LOSS-FREE LOAD BALANCING STRATEGY 的由来

    作者:指北笔记发布日期:2025-02-19 22:00:00

    ABSTRACT对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或增加计算开销。现有方法通常采用辅助损失来促进负载平衡,但较大的辅助损耗会在训练中引入不可忽略的干扰梯度,从而影响模型的性能。

    阅读全文
上一页