MiniCPM-V 4.5技术报告正式出炉!首个高刷视频理解多模态模型全解析
自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端高性能服
阅读全文自 OpenAI 发布 GPT-4 以来,多模态大模型深刻地改变了人工智能研究和产业的基本范式,在理解和推理图文语义信息方面展现出革命性能力,但其庞大的参数量和高昂的计算成本,使其严重依赖云端高性能服
阅读全文在刚刚结束的第 31 届 ACM SIGKDD 知识发现与数据挖掘国际会议(KDD2025)上,北京航空航天大学计算机学院 BIGSCITY 实验室发布了名为 UMI(Universal multi-
阅读全文图像定制(Image Customization)是工业级媒体生产中的核心需求——无论是虚拟试衣、商品植入,还是创意 IP 衍生,都需要让生成的图像与参考保持身份一致。传统方法通常分为两类:位置相关(
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!AppleApple is a place where extraordina
阅读全文在没有标准答案的任务里,大模型该向谁学习?长期以来,我们依赖人类标注、LLM 判官或多数投票来为模型提供监督,但这些方式要么成本高昂,要么偏好明显,要么只能在候选里“挑最不差的”。但如果——算力本身就
阅读全文摘要当大语言模型(LLM)在文本世界大放异彩时,我们不禁要问:能否用同样简洁、统一的自回归架构,来驾驭更加复杂的视频生成任务?现有的自回归视频生成方法,或多或少都面临着架构不统一、依赖笨重外部文本编码
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!复旦大学复旦大学人工智能创新与产业研究院成立于2021年11月,由漆远教授领衔
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!智源研究院北京智源研究院多模态交互研究中心旨在探索最前沿研究/应用场景,构建赋
阅读全文©PaperWeekly 原创· 作者 | 李涵单位 | 上海交通大学博士生研究方向 | 多模态理解生成一体化动机近年来,多模态领域的主流做法是将不同功能的模型“组合”起来使用。一个模型负责理解图像,
阅读全文©PaperWeekly 原创· 作者|王剑羽单位 | 阿里达摩院算法工程师或许你会觉得 LLMs 进步这么快,各种 SFT、RLHF 技术飞速迭代,大模型知道如何使用自然语言进行沟通,花时间调一个详
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯我们正在寻找优秀青云实习生与我们携手,共同探索迈向通用人工智能 (AGI)
阅读全文扩散大语言模型(dLLMs)凭借并行解码与独特的全局规划能力,有望解决自回归(AR)大模型的效率瓶瓶颈和规划能力缺陷。但其「全局规划」能力依赖于其双向注意力对所有后文的关注,这带来了严重的计算冗余,从
阅读全文©作者 | 皓天研究方向 | AI安全、推理&规划训练跑得慢、收敛不稳,很多人第一反应是算力不足、参数没调好。但问题往往更隐蔽:pg-loss 的期望计算本身可能就错了。当 rollout≠polic
阅读全文在类增量学习(Class-Incremental Learning, CIL)中,模型需要在不断学习新任务的同时保留旧知识,避免灾难性遗忘。近期,大规模预训练模型(如 CLIP)展现了强大的泛化与零样
阅读全文尽管大型语言模型(LLM)拥有广泛的世界知识和强大的推理能力,被广泛视为优秀的少样本学习者,但在处理需要大量示例的上下文学习(ICL)时仍存在明显局限。已有工作表明,即使提供多达上百甚至上千条示例,L
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!字节跳动国际电商是以国际化短视频产品为载体的内容电商业务,致力于成为用户发现并
阅读全文你是否曾经在书架前寻找一本书,却因为密密麻麻的书脊而眼花缭乱?或者在超市货架前,面对琳琅满目的商品标签而一时找不到目标?其实,视觉语言模型(VLMs)也面临着同样的困扰。最近,来自中科院计算所的研究团
阅读全文今年 ICML Outstanding Paper “COLLABLLM: From Passive Responders to Active Collaborators” 把从被动到主动的人机协作推
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!新加坡国立大学新加坡国立大学(National University of S
阅读全文近年来,大语言模型(LLMs)在复杂推理任务上的能力突飞猛进,这在很大程度上得益于深度思考的策略,即通过增加测试时(test-time)的计算量,让模型生成更长的思维链(Chain-of-Though
阅读全文©PaperWeekly 原创· 作者 | 桂润泉学校 | 中国科学技术大学硕士生研究方向 | 大语言模型复杂推理、复杂规划在大语言模型(LLMs)飞速发展的今天,它们在数学计算、逻辑推理等领域已展现
阅读全文随着大语言模型(LLMs)在新闻创作、学术研究、评论生成等领域的广泛应用,其潜在滥用风险引发了公众对内容真实性的担忧,如 AI 生成假新闻误导舆论、AI 代写学术内容引发学术不端等问题。在此背景下,构
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!微软M365 Copilot 团队是微软在智能办公领域的核心研发力量,致力于打
阅读全文©作者 | Chong Jie单位 | 上海交通大学研究方向 | 参数高效微调放在开头:这篇文章会比较零碎,是由我之前做过的一次分享记录而成。我没有特意去梳理文章,直接把讲稿拿来主义,属于知识比较密集
阅读全文大语言模型(LLM)的滥用(如学术抄袭、虚假信息生成)推动了 LLM 文本检测器的发展,用于判别由模型生成的文本。为规避这些检测器,研究人员提出了重写攻击,即有意重写文本以逃避检测。尽管已有一定成效,
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!南京大学南京大学智能科学与技术学院是南京大学在苏州校区首批建设的学院之一。在人
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴LLM research 团队是隶属于阿里巴巴通义实验室的前沿研究团队
阅读全文©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络众所周知,我们很早就开始尝试将 Muon 用于大规模 LLM 的训练。特别地,在QK-Clip巧解M
阅读全文©PaperWeekly 原创· 作者 | 张剑清单位 | 上海交通大学我们在 GitHub 上开源了一个异构模型间知识迁移框架 HtFLlib,中稿 KDD 并获评 Best Paper Runne
阅读全文在检索增强生成(RAG)飞速发展的当下,研究者们面临的最大困境并非「生成」,而是「稳定」。 低信噪比让关键信息淹没在冗余文档里,错误累计则让推理链像骨牌一样层层坍塌。这两大顽疾,使得现有 RAG 系统
阅读全文