LoRA到底能否媲美全参?Thinking Machines用实验曲线划出「无悔区」
打平全参,还是效率掉队?这是围绕 LoRA 最大的争议。Thinking Machines 团队通过系统化实验与工程级配方,首次证明:在后训练的典型规模下,LoRA 并不是玄学调参,而是能被科学刻画、
阅读全文打平全参,还是效率掉队?这是围绕 LoRA 最大的争议。Thinking Machines 团队通过系统化实验与工程级配方,首次证明:在后训练的典型规模下,LoRA 并不是玄学调参,而是能被科学刻画、
阅读全文“玛娜生态,末日废土,跑得最快的噬极兽。”在《灵笼》的世界里,谁更适应环境,谁就活下来——“跑得最快”的物种在废土中率先突围。现在,科学家把这条自然法则搬进现实的设计室:把俄罗斯方块当作可拼接的“器官
阅读全文现有多模态大模型(LMMs)在复杂多样的 OCR 任务中表现如何?华中科技大学、华南理工大学、阿德莱德大学和字节跳动联合推出新一代 OCR 评测基准 OCRBench v2,并发布最新私有数据榜单(2
阅读全文当“并行分叉”和“逐步自省”不再互斥,Recursive Self-Aggregation(RSA)像一台“思维基因重组机”,把多条推理链里的正确片段拼成更强的解题方案——甚至让 Qwen3-4B 这
阅读全文北京航空航天大学联合香港大学提出了基于因果建模的时空基向量表征模型,首次将后门调整原理扩展到连续与未知混杂因子,通过构建基混杂库、自监督任务增强表示,并结合因果解耦机制,实现了在复杂城市场景下更准确、
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!快手可灵AI技术部负责生成式AI模型的研发和应用,构建超大规模 AI 基础设施
阅读全文在大模型推理的世界里,有一个残酷的现实:上下文越长,钱包越痛。你想在 10 万 tokens 的文档里挖掘知识?对不起,先准备一张几十 GB 显存的高端 GPU,再外加一台服务器的预算。长上下文能力明
阅读全文还在为表征学习只看见“表面信息”而头疼吗?在电商、搜索、检索等实际场景中,我们往往需要的不仅仅是“这是大象”,而是包括环境、颜色、材质、场合在内的多维信息。但传统方法往往只能给出单一标签。本文提出的条
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴通义实验室致力于AIGC、大模型基础研究和行业应用探索,在视觉、语音、
阅读全文在大语言模型的进化史上,RLHF(Reinforcement Learning with Human Feedback)无疑是最具里程碑意义的范式之一:它让模型从“机械对话机”蜕变为“人类偏好的镜子”
阅读全文在大模型的发展历史上,「上下文长度」一直是横亘在研究和应用之间的最大鸿沟之一。无论是百万行代码的全局理解,还是上百页文档的精确问答,当输入序列超过数万 token,现有 LLM 都会遭遇同样的困境:计
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港中文大学(深圳)香港中文大学(深圳)理工学院成立于2015年,秉承香港中文
阅读全文在大模型的世界里,人们早就习惯了“硬件思维”:显存不够就多加卡,推理太慢就多堆 GPU。长上下文问题因此被视为一场“军备竞赛”——谁能烧更多算力,谁就能撑更长的输入。 但清华大学姚期智团队给出的答案却
阅读全文在大模型圈,有一个几乎铁律般的直觉:更多数据,就意味着更强的能力。无论是预训练还是指令微调,大家的共识都是“量就是一切”。但这次,来自上海交大等机构的一篇论文却把这条规律颠覆了。 研究团队提出了一个名
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!中科院软件所中国科学院软件研究所是一所致力于计算机科学理论和软件高新技术的研究
阅读全文在大模型推理力的进化史上,总有一些让人百思不得其解的“谜之现象”:模型为何会突然迎来 Aha 时刻,像是顿悟般智力飞升?为什么思维链越长,准确率反而更高?为什么训练中的熵曲线与性能关系如此扑朔迷离?港
阅读全文引言视觉语言动作模型(VLA)凭借其强大的通用知识与推理能力,正成为推动自动驾驶技术发展的关键力量。然而,当前主流方法在进行决策时,大多依赖于一种“文本式”的思维链(Chain-of-Thought,
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!麦吉尔大学麦吉尔大学始建于1821年,为加拿大第一所大学,坐落于加拿大魁北克省
阅读全文自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端高性能服
阅读全文在刚刚结束的第 31 届 ACM SIGKDD 知识发现与数据挖掘国际会议(KDD2025)上,北京航空航天大学计算机学院 BIGSCITY 实验室发布了名为 UMI(Universal multi-
阅读全文图像定制(Image Customization)是工业级媒体生产中的核心需求——无论是虚拟试衣、商品植入,还是创意 IP 衍生,都需要让生成的图像与参考保持身份一致。传统方法通常分为两类:位置相关(
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!AppleApple is a place where extraordina
阅读全文在没有标准答案的任务里,大模型该向谁学习?长期以来,我们依赖人类标注、LLM 判官或多数投票来为模型提供监督,但这些方式要么成本高昂,要么偏好明显,要么只能在候选里“挑最不差的”。但如果——算力本身就
阅读全文摘要当大语言模型(LLM)在文本世界大放异彩时,我们不禁要问:能否用同样简洁、统一的自回归架构,来驾驭更加复杂的视频生成任务?现有的自回归视频生成方法,或多或少都面临着架构不统一、依赖笨重外部文本编码
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!复旦大学复旦大学人工智能创新与产业研究院成立于2021年11月,由漆远教授领衔
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!智源研究院北京智源研究院多模态交互研究中心旨在探索最前沿研究/应用场景,构建赋
阅读全文©PaperWeekly 原创· 作者 | 李涵单位 | 上海交通大学博士生研究方向 | 多模态理解生成一体化动机近年来,多模态领域的主流做法是将不同功能的模型“组合”起来使用。一个模型负责理解图像,
阅读全文©PaperWeekly 原创· 作者|王剑羽单位 | 阿里达摩院算法工程师或许你会觉得 LLMs 进步这么快,各种 SFT、RLHF 技术飞速迭代,大模型知道如何使用自然语言进行沟通,花时间调一个详
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯我们正在寻找优秀青云实习生与我们携手,共同探索迈向通用人工智能 (AGI)
阅读全文扩散大语言模型(dLLMs)凭借并行解码与独特的全局规划能力,有望解决自回归(AR)大模型的效率瓶瓶颈和规划能力缺陷。但其「全局规划」能力依赖于其双向注意力对所有后文的关注,这带来了严重的计算冗余,从
阅读全文