RL训练总崩溃?R1-Reward稳定解锁奖励模型Long-Cot推理能力
多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evalua
阅读全文多模态奖励模型(MRMs)在提升多模态大语言模型(MLLMs)的表现中起着至关重要的作用,在训练阶段可以提供稳定的 reward,评估阶段可以选择更好的 sample 结果,甚至单独作为 evalua
阅读全文从一张照片重建出逼真的带纹理的人体 3D 模型一直是计算机视觉领域的难题。港科广团队提出的 MultiGO 创新方案,通过分层建模思路破解了这一挑战——将人体分解为不同精度层级,从基础体型到衣物褶皱逐
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!复旦大学探索以人为中心的智能——加入复旦大学计算机科学技术学院 - 智能人机交
阅读全文引言近年来,基于规则的强化学习(RFT)在多模态大语言模型(MLLMs)中的应用取得了显著进展,并且在一些模型上取得了优于监督微调(SFT)的成果。RFT 利用可验证的奖励进行训练,鼓励模型在回答之前
阅读全文任务背景以及 Motivation随着深度视觉-语言预训练的飞速发展,文本驱动的行人检索(Text-based Person Search)已成为公共安全与智能监控领域的热门方向。然而,现有方法为了解
阅读全文©作者 | 周培林单位 | 香港科技大学(广州)随着大语言模型(LLMs)日渐“拟人化”,能写报告、能画图、还能“冲浪查资料”,不少人以为它们已能应对各种任务。但这次,一项由港科大(广州)、北大、浙大
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!字节跳动Data-电商团队,负责电商创新项目的算法和大数据工作。依托于字节跳动
阅读全文临近毕业季,不管是硕士生还是博士生,毕业前最大的一关就是盲审。通过了,就基本可以宣告毕业在即;没过,则要面对可能“延毕”的深渊。实话, 论文盲审没过,一度陷入了自我怀疑中,觉得自己干啥都不行,能力不行
阅读全文当前,多模态大语言模型(MLLMs)在视觉-语言理解任务中取得了令人瞩目的进展,其中视觉分词(vision tokenization)作为视觉与语言语义对齐的关键环节,发挥着至关重要的作用。然而,现有
阅读全文现在的大模型(比如论文提到的 Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;思考过程长:解一道题要生成几千甚至上万字的思维链(C
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴团队负责夸克教育多模态大模型的建设工作,有机会接触到前沿的多模态大模型
阅读全文随着 GPT-4o 生成能力的爆火,很多人都在研究怎么让模型既能看懂图片、视频(理解任务),又能根据文字生成图片、视频(生成任务)。自回归模型(就是那种一个接一个预测下一个“词”的模型)在这两方面都取
阅读全文大推理模型(LRM)在非常复杂或困难的任务中表现非凡,这依赖于其强大的系统 2 思维模式(深思熟虑的慢思考)。但在日常的使用中,大量用户提问的问题更多是系统 1 问题(这些问题可以直觉快速回答),他们
阅读全文长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型难以大规模训练超长视频,并且在处理长视频时,仍然面临性能差和效率低的双重挑战。对此,上海交通大
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!西湖大学西湖大学人工智能与科学仿真发现实验室长期开展AI + Science学
阅读全文当前,大语言模型(LLMs)已在数学推理、代码等任务中展现出强大的能力。然而,现有提升推理性能的主流范式,往往依赖监督微调(SFT)与强化学习(RL)的结合,依赖于人工标注的推理路径、标准答案或额外的
阅读全文近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。然而,随着模型规模的不断扩大和应用场景的日益复杂,传统
阅读全文在复杂推荐场景中,多任务联合优化面临 “联合训练耗时冗长、新任务泛化能力差” 的低效困境,行业亟待突破性解决方案。北京邮电大学-腾讯联合提出两阶段多任务提示调优框架 MPT-Rec,精准攻克知识迁移中
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中电信AI中电信人工智能科技有限公司是中国电信开展人工智能业务的科技型、能力型
阅读全文本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。论文标题:Learning to Reason under
阅读全文你是否想开发一个真正能看懂图像、理解语境、给出准确回答的 AI?你是否对多模态生成、检索增强大模型(RAG)感兴趣?如果你的答案是“YES”,那你一定不能错过 Meta CRAG-MM Challen
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港中文大学香港中文大学多媒体实验室(MMLab)成立于2001年7月,是香港
阅读全文©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络不知道大家有没有留意到前段时间的《Transformers without Normalizatio
阅读全文多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推
阅读全文背景:长上下文视频生成的挑战目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现
阅读全文在大模型时代,数据质量决定了一切。但在资源受限的边缘设备上,高效的语言模型(Edge LMs)更是依赖于高质量的数据。如何在海量数据中筛选出最优子集,让小模型也能大放异彩?近日芯片巨头英伟达联合 La
阅读全文还记得两个月前那个引爆 Github 的 VLM-R1 吗?上线 12 小时狂揽 2000+ Star,48 小时冲上趋势榜第一,连 AI 大佬们都直呼这框架有点东西!如今,它的官方技术报告终于来了!
阅读全文Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。Mona 方
阅读全文前两天闲来没事逛 HuggingFace,意外发现腾讯研发团队放出了一个开源模型 VLR1-3B 的预览版(preview),还是多模态?模型链接:https://hf-mirror.com/Tenc
阅读全文