推测性思维链SCoT:小模型“模仿”大模型,最高提速2.9倍,准确率几乎不降
现在的大模型(比如论文提到的 Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;思考过程长:解一道题要生成几千甚至上万字的思维链(C
阅读全文现在的大模型(比如论文提到的 Deepseek-R1)虽然能解决复杂数学题,但有两个致命缺点:体型庞大:动辄几百亿参数,像“超级计算机”一样耗资源;思考过程长:解一道题要生成几千甚至上万字的思维链(C
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴团队负责夸克教育多模态大模型的建设工作,有机会接触到前沿的多模态大模型
阅读全文随着 GPT-4o 生成能力的爆火,很多人都在研究怎么让模型既能看懂图片、视频(理解任务),又能根据文字生成图片、视频(生成任务)。自回归模型(就是那种一个接一个预测下一个“词”的模型)在这两方面都取
阅读全文大推理模型(LRM)在非常复杂或困难的任务中表现非凡,这依赖于其强大的系统 2 思维模式(深思熟虑的慢思考)。但在日常的使用中,大量用户提问的问题更多是系统 1 问题(这些问题可以直觉快速回答),他们
阅读全文长视频理解是多模态大模型的核心能力之一,也是迈向通用人工智能(AGI)的关键一步。然而,现有的多模态大模型难以大规模训练超长视频,并且在处理长视频时,仍然面临性能差和效率低的双重挑战。对此,上海交通大
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!西湖大学西湖大学人工智能与科学仿真发现实验室长期开展AI + Science学
阅读全文当前,大语言模型(LLMs)已在数学推理、代码等任务中展现出强大的能力。然而,现有提升推理性能的主流范式,往往依赖监督微调(SFT)与强化学习(RL)的结合,依赖于人工标注的推理路径、标准答案或额外的
阅读全文近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为语言理解与生成带来了前所未有的突破。然而,随着模型规模的不断扩大和应用场景的日益复杂,传统
阅读全文在复杂推荐场景中,多任务联合优化面临 “联合训练耗时冗长、新任务泛化能力差” 的低效困境,行业亟待突破性解决方案。北京邮电大学-腾讯联合提出两阶段多任务提示调优框架 MPT-Rec,精准攻克知识迁移中
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中电信AI中电信人工智能科技有限公司是中国电信开展人工智能业务的科技型、能力型
阅读全文本文提出 LUFFY 强化学习方法,一种结合离线专家示范与在线强化学习的推理训练范式,打破了“模仿学习只学不练、强化学习只练不学”的传统壁垒。论文标题:Learning to Reason under
阅读全文你是否想开发一个真正能看懂图像、理解语境、给出准确回答的 AI?你是否对多模态生成、检索增强大模型(RAG)感兴趣?如果你的答案是“YES”,那你一定不能错过 Meta CRAG-MM Challen
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港中文大学香港中文大学多媒体实验室(MMLab)成立于2001年7月,是香港
阅读全文©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络不知道大家有没有留意到前段时间的《Transformers without Normalizatio
阅读全文多模态大模型(MLLMs)在视觉理解与推理等领域取得了显著成就。然而,随着解码(decoding)阶段不断生成新的 token,推理过程的计算复杂度和 GPU 显存占用逐渐增加,这导致了多模态大模型推
阅读全文背景:长上下文视频生成的挑战目前的视频生成技术大多是在短视频数据上训练,推理时则通过滑动窗口等策略,逐步扩展生成的视频长度。然而,这种方式无法充分利用视频的长时上下文信息,容易导致生成内容在时序上出现
阅读全文在大模型时代,数据质量决定了一切。但在资源受限的边缘设备上,高效的语言模型(Edge LMs)更是依赖于高质量的数据。如何在海量数据中筛选出最优子集,让小模型也能大放异彩?近日芯片巨头英伟达联合 La
阅读全文还记得两个月前那个引爆 Github 的 VLM-R1 吗?上线 12 小时狂揽 2000+ Star,48 小时冲上趋势榜第一,连 AI 大佬们都直呼这框架有点东西!如今,它的官方技术报告终于来了!
阅读全文Mona(Multi-cognitive Visual Adapter)是一种新型视觉适配器微调方法,旨在打破传统全参数微调(full fine-tuning)在视觉识别任务中的性能瓶颈。Mona 方
阅读全文前两天闲来没事逛 HuggingFace,意外发现腾讯研发团队放出了一个开源模型 VLR1-3B 的预览版(preview),还是多模态?模型链接:https://hf-mirror.com/Tenc
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!亚利桑那大学亚利桑那大学(University of Arizona,简称UA
阅读全文通过强化学习(RL)来提升大语言模型(LLM)的推理能力,已经成为行业的共识。然而,在跨领域任务(如数学推理和代码生成)中,如何让模型“鱼与熊掌兼得”,仍然是一个巨大的挑战。近期,快手 Kwaipil
阅读全文在理解人类行为的视频研究中,第一人称视觉(Egocentric Vision)正成为视频理解、具身智能与虚拟现实等前沿领域的重要突破口。它要求模型不仅能识别物体,还要理解人类如何操作这些物体、为何操作
阅读全文Github 仓库:https://github.com/TheEighthDay/SeekWorldHuggingface 模型:https://huggingface.co/TheEighthDa
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!通义实验室通义实验室负责通义系列大模型(通义千问等)的研发和应用落地。其中的对
阅读全文直接偏好优化(DPO)在大语言模型(LLMs)对齐研究上表现优异,许多方法尝试通过替换输入数据将其扩展至多模态场景。这种方法有什么局限性?我们通过可视化图文表征空间发现,现有多模态 DPO 模型即便经
阅读全文©作者 | 沈笑,海南大学副教授、博导研究方向 | 图域适应、跨网络分类等邮箱 | shenxiaocam@163.com本文介绍一篇发表于 AAAI-2025 的论文,面向开放集跨网络节点分类的排除
阅读全文2025 年 3 月 18 日,由始智 AI wisemodel 开源平台与 AMD 中国 AI 应用创新联盟联合主办的 “AMD AI PC 应用创新大赛” 正式拉开帷幕!本届大赛以“AI PC 芯
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中佛罗里达大学中佛罗里达大学(University of Central Fl
阅读全文