ICLR 2025 | 英伟达提出FP8训练新范式:减少40%显存占用,训练加速1.43倍
©作者 | 席浩诚单位 | UC伯克利博士生来源 | 机器之心近期DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。这表明,F
阅读全文©作者 | 席浩诚单位 | UC伯克利博士生来源 | 机器之心近期DeepSeek V3 引爆国内外的社交媒体,他们在训练中成功应用了 FP8 精度,显著降低了 GPU 内存使用和计算开销。这表明,F
阅读全文©PaperWeekly 原创 · 作者 | 汪远单位 | 中国科学技术大学研究方向 | 图像生成当前,AI 图像生成技术迅猛发展,各类图文生成模型让用户能凭借简单文字描述创作出精美的图像。然而,这也
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港大学香港大学创立于1911年,坐落于繁华的香港岛西部,是香港的首间大学,发
阅读全文最近打开某乎、牛客等互联网论坛,“2025 届春招算法岗”相关话题热度居高不下。“2025 春招算法岗已经卷麻了”“算法岗竞争太激烈,感觉上岸无望”等帖子层出不穷,点进去一看,满是求职者们的焦虑与无奈
阅读全文简介本文提出轻量化多模态大模型 LLaVA-MoD,通过集成稀疏的专家混合(MoE)架构,优化小模型的网络结构,并提出 Dense-to-Sparse 蒸馏框架,结合两阶段蒸馏策略(模仿蒸馏+偏好蒸馏
阅读全文©作者 | 纪焘单位 | 复旦NLP实验室博士后研究方向| 大模型高效推理DeepSeek-R1 作为 AI 产业颠覆式创新的代表轰动了业界,特别是其训练与推理成本仅为同等性能大模型的数十分之一。多头
阅读全文技术革新临界点已至,大模型生态迎来爆发期当前,全球人工智能产业正经历从“暴力美学”到“精巧工程”的范式跃迁。DeepSeek 引领超强大模型的开源开放与普惠化浪潮之下,大模型技术已突破边界逐步渗透至千
阅读全文DeepSeek可谓是开年的AI界大明星,从论文方面来说,开年后就有意大利老铁已经用国产AI把顶刊SCI玩成了"消消乐"——投稿一天接收,中科院一区6.5分期刊直接盖章认证,这效率比外卖小哥抢单还离谱
阅读全文导读近年来,大语言模型(LLMs)在自然语言处理等多个领域展现了卓越的性能。随着这些模型的广泛应用,确保其安全性和对齐性已成为重中之重。然而,LLMs 仍面临越狱攻击的严峻挑战,现有的越狱攻击方法可大
阅读全文在数字化浪潮席卷而来的今天,视觉文档已然成为信息传递的重要载体。从学术报告中的复杂图表,到商业计划书里的精妙布局,再到医疗档案中的多维数据展示,这些富含视觉元素的文档,不仅仅是简单的文字堆砌,而是融合
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!达特茅斯学院达特茅斯学院(Dartmouth College),创建于1769
阅读全文很多科研人,现在都会借助AI工具进行学术创作/科研工作,无论是文献检索整理、内容修改润色,还是拓展创新维度,AI都能提升研究效率。但在使用DeepSeek、ChatGPT这类AI的过程中,总会遇到生成
阅读全文©PaperWeekly 原创 · 作者 | 张彧单位 | 德州农工大学助理教授随着学术会议论文提交数量的迅速增加,我们越来越依赖有效的论文-评审人匹配模型。此前在这一领域的研究考虑了多种因素来评估评
阅读全文©作者 | 汤轶文单位 | 上海科技大学、上海AI Lab研究方向 | 3D视觉,大模型高效迁移 许多近期的研究致力于开发大型多模态模型(LMMs),使 LLMs 能够解读多模态信息,如
阅读全文第二十四届中国计算语言学大会(The 24th China National Conference on Computational Linguistics, CCL 2025)将于2025年8月11
阅读全文CVPR 2025录用结果出炉!!!一年一度的计算机视觉和模式识别会议(CVPR)一直是 CV 界前沿研究的灯塔。今年,共有13008份有效投稿并进入评审流程,其中2878篇被录用,最终录用率为22.
阅读全文背景近年来,大型语言模型(LLMs)在代码相关的任务上展现了惊人的表现,各种代码大模型层出不穷。这些成功的案例表明,在大规模代码数据上进行预训练可以显著提升模型的核心编程能力。除了预训练外,一些通过
阅读全文©来源 | 机器之心原来,大型推理模型(Large Reasoning Model,LRM)像人一样,在「用脑过度」也会崩溃,进而行动能力下降。近日,加州大学伯克利分校、UIUC、ETH Zurich
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯腾讯混元大模型团队有着充沛的算力资源、丰富的训练数据,以及腾讯业务生态下多
阅读全文尽管多模态大语言模型(MLLMs)取得了显著的进展,但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域(例如减少幻觉问题),是否与人类偏好对齐可以
阅读全文简介在本研究中,我们针对多模态大语言模型(MLLM)在辨识微小视觉信息时的局限性,提出了一套无需额外训练的“可视化干预”方法,巧妙地挖掘并利用模型自身的内部知识(注意力与梯度信息),从而提升模型对小尺
阅读全文本次文章介绍我们发表于由 Springer 出版的专著《Advancements in Knowledge Distillation: Towards New Horizons of Intellig
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!美团点评技术部-搜索与内容智能成立与2024年7月1日,是大众点评技术部的一个
阅读全文“三个臭皮匠,顶个诸葛亮”——这句古老的谚语似乎在大模型领域遇到了挑战。在大模型领域,多智能体辩论(Multi-Agent Debate, MAD)方法持续引发学界关注,并频繁亮相于顶级学术会议。该方
阅读全文▲ Node ID 示意图我们简要介绍了一种名为 Node Identifiers(Node IDs)的新型节点离散表示学习框架。该框架利用向量量化(Vector Quantization,VQ)技术
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!伊利诺伊理工大学伊利诺伊理工是美国著名的研究性私立大学,QS排名全美前80。该
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!美团核心本地商业(Core Local Commerce)是美团“零售+科技”
阅读全文近期,多模态大模型(MLLMs)发展迅速,但开源模型在长上下文场景(如长视频或高分辨率图像)中仍显著落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景(如短视频或静态图像)中又表现不佳。为
阅读全文©来源 | 机器之心在大语言模型 (LLM) 的研究中,与以 Chain-of-Thought 为代表的逻辑思维能力相比,LLM 中同等重要的 Leap-of-Thought 能力,也称为创造力,目前
阅读全文今天跟大家分享一篇来自西安交通大学、香港城市大学、腾讯优图实验室天衍研究中心、南方科技大学和西湖大学的论文,该论文已被 AAAI 2025 接收。这篇文章提出了一种新颖的基于 LLM 的序列推荐推荐嵌
阅读全文