Attention Sink现象揭秘:Transformer为何偏爱首Token?
作者 | 郑明悟研究方向 | 大语言模型来源 | https://zhuanlan.zhihu.com/p/1932066570714215838Attention Sink 来源于 Transfor
阅读全文作者 | 郑明悟研究方向 | 大语言模型来源 | https://zhuanlan.zhihu.com/p/1932066570714215838Attention Sink 来源于 Transfor
阅读全文在现代无人机视觉精细地理定位任务(Drone-based Visual Geo-localization)中,传统基于图像的方法范式依赖于从无人机拍摄的单张图片进行匹配,但这种方式存在两个显著问题:视
阅读全文近年来,大语言模型(LLM)在语言理解、生成和泛化方面取得了突破性进展,并广泛应用于各种文本任务。随着研究的深入,人们开始关注将 LLM 的能力扩展至非文本模态,例如图像、音频、视频、图结构、推荐系统
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!腾讯混元大模型是腾讯公司的通用大模型技术团队,致力于开发业界先进的 AI 大模
阅读全文本文提出 LeaF 框架,在知识蒸馏过程中融入基于因果分析的干扰识别机制,引导学生模型推理过程中聚焦因果关键特征,从而提升推理准确性与泛化能力。论文标题:Learning to Focus: Caus
阅读全文TL;DR我们提出了 STAG(Soft Tokenization for Text-attributed Graphs),一个创新的自监督框架,通过量化技术将图的结构信息直接转换为离散 token,
阅读全文大型语言模型(LLMs)在代码理解和生成领域取得了长足进步,能够跨越多种编程语言提供智能反馈、检测潜在 bug 并基于人类指令更新代码片段。代码反思(Code Reflection)作为 LLM 检查
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港科技大学(广州)香港科技大学(简称港科大)自1991年在清水湾校区成立以来
阅读全文作者|边路腰刀单位|清华大学博士生来源|https://zhuanlan.zhihu.com/p/14369935885现在开源社区对 RoPE 的评价是两种一边倒,要么只褒,要么只贬。更加遗憾的是,
阅读全文在推荐系统中,用户的行为(如购买、点击)在不同的 context 环境(如时间和位置)下可能有很大的差异。这是因为用户行为由两类因素共同决定:内在因素(intrinsic factors),反映用户一
阅读全文©作者 | 朱贝尔、王若禹单位 | NTU、西湖大学研究方向 | 机器学习、扩散模型近年来,扩散模型(Diffusion Models)凭借出色的生成质量,迅速成为图像、视频、语音、3D 内容等生成任
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴我们致力于利用强大的预训练模型,运用前沿的 post-training
阅读全文©PaperWeekly 原创 · 作者 | 李永彬单位 | 阿里巴巴通义实验室研究方向 | 代码智能、对话智能近日,自然语言处理领域的国际顶级会议 ACL 2025 正在召开,通义实验室代码智能&对
阅读全文组委会尊敬的学术界同仁:AC学术平台谨此发布2025年下半年重要学术会议信息公告。经审核,在AC学术平台发布的所有会议均将邀请全球知名学者莅临现场,分享最新学术研究成果,且会议论文均将提交EI数据库。
阅读全文©作者 | 赵克森单位 | 南洋理工大学博士生研究方向 | 强化多模态大语言模型 随着文本领域中思维链(Chain-of-Thought,CoT)推理机制的成功应用,研究者开始将该方法引入视觉理解任务
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港中文大学(深圳)香港中文大学(深圳)数据科学学院专注于数据科学方向的人才培
阅读全文在 LLM 的预训练及微调阶段,Scaling Law 告诉了我们所能达到效果范围,其中蕴含了深刻的信息论原理,感兴趣的可以回看笔者之前的文章 [15]。在此原理的支配下,开发者则可以将精力主要关注于
阅读全文不完备多视图聚类(Incomplete Multi-view Clustering,IMC)旨在在不利用标注信息的情况下对有缺失的多视图数据进行表征学习和类别划分,在增强同类样本相似性的同时增加类间差
阅读全文还在为强化学习(RL)框架的扩展性瓶颈和效率低下而烦恼吗?当模型和集群规模达到上千块 GPU 时,传统的中心化控制器架构难免会遇到性能瓶颈、内存溢出甚至系统崩溃。事实上,当前最顶尖的基础模型,从 De
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!上海人工智能实验室上海人工智能实验室安全可信团队致力于大模型、智能体及多智能体
阅读全文近日,MiroMind(集智进化) 推出 MiroMind‑M1 系列数学推理语言模型(RLMs),训练数据、代码、模型配方、测试等全流程全部开源,覆盖监督微调(SFT)和强化学习(RL)两大部分。M
阅读全文▲ 图0:项目主页如何仅通过单目视频实现对动态三维物体的高质量重建与物理仿真,一直是计算机视觉与图形学领域一个极具挑战性的问题。近期,来自浙江大学等机构的研究者们提出了名为 MaGS(Mesh-ads
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港理工大学香港理工大学 (The Hong Kong Polytechnic
阅读全文还在为 LoRA 训练不稳定、模型融合效果差、剪枝后性能大降而烦恼吗?来自香港城市大学、南方科技大学、浙江大学等机构的研究者们提出了一种简单的渐进式训练策略——CoTo,通过在训练早期随机失活一部分适
阅读全文2025 年 7 月 26 日,站在人类智慧探索的前沿,上海交通大学-深势科技-上海算法创新院共同发布真正通用意义的科学基座大模型 Innovator,并依托 Innovator 推出全球首个「通用科
阅读全文期刊/会议:ACL 2025论文地址:https://arxiv.org/abs/2507.10085作者机构:阿里云智能-飞天实验室论文关键词:LLM reasoning,Chain-of-Thou
阅读全文近日,来自 OPPO、耶鲁大学、斯坦福大学、威斯康星大学麦迪逊分校、北卡罗来纳大学教堂山分校等多家机构的研究团队联合发布了 Agent KB 框架。这项工作通过构建一个经验池并且通过两阶段的检索机制实
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴阿里巴巴夸克大模型团队致力于全栈自研千亿级参数大模型,聚焦搜索、医疗、
阅读全文©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络在文章《Transformer升级之路:MLA好在哪里?(上)》中,我们对 MLA 相比常见 MHA
阅读全文太长不看版:最简单的 trick 刷最高的点,让多类异常检测性能首次逼近甚至超越单类模型水平!现已加入 Intel Open Edge 异常检测工具库 Anomalib。论文标题:Dinomaly:
阅读全文