Duplex Conversation: Towards Human-like Interaction
ABSTRACTDuplex Conversation,是一个多轮、多模态的口语对话系统,它使基于电话的代理能够像人类一样与客户进行交互。我们用电信中全双工的概念来演示类似人类的交互体验应该是什么,以
阅读全文ABSTRACTDuplex Conversation,是一个多轮、多模态的口语对话系统,它使基于电话的代理能够像人类一样与客户进行交互。我们用电信中全双工的概念来演示类似人类的交互体验应该是什么,以
阅读全文Abstract像GPT和Llama这样的大型语言模型是用next-token预测损失来训练的。在这项工作中,我们建议训练语言模型一次预测多个未来标记可以提高样本效率。更具体地说,在训练语料库中的每个
阅读全文ABSTRACT对于混合专家(MoE)模型,不平衡的专家负载将导致路由崩溃或增加计算开销。现有方法通常采用辅助损失来促进负载平衡,但较大的辅助损耗会在训练中引入不可忽略的干扰梯度,从而影响模型的性能。
阅读全文