ICML 2025 | 会刷题≠懂数学!CogMath打造“认知显微镜”,深扒大模型的数学能力
随着大语言模型(LLMs)在各类推理应用上效果的持续提升,特别是数学基准测试(benchmark)上频繁刷榜,关于它们“是否真正理解数学”的讨论也日益增多。针对这一问题,中国科学技术大学认知智能全国重
阅读全文随着大语言模型(LLMs)在各类推理应用上效果的持续提升,特别是数学基准测试(benchmark)上频繁刷榜,关于它们“是否真正理解数学”的讨论也日益增多。针对这一问题,中国科学技术大学认知智能全国重
阅读全文你肯定见过大模型在解题时「装模作样」地输出:「Hmm…」、「Wait, let me think」、「Therefore…」这些看似「人类化」的思考词。但一个灵魂拷问始终存在:这些词真的代表模型在「思
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港城市大学香港城市大学是一所坐落于香港九龙塘的公立研究型大学。2026年US
阅读全文©PaperWeekly 原创 · 作者 | 苏剑林单位 | 科学空间研究方向 | NLP、神经网络在中文圈,笔者应该算是比较早关注线性 Attention 的了,在 2020 年写首篇相关文章线性A
阅读全文北京航空航天大学联合华为 2012 实验室发布了一项名为 BIGCity 的时空大模型。提出了了一种统一轨迹和交通状态预测任务的新范式。本文第一作者为北京航空航天大学计算机学院博士生于勰,本文的通讯作
阅读全文在大语言模型(LLM)加速进入法律、医疗、金融等高风险应用场景的当下,“安全对齐”不再只是一个选项,而是每一位模型开发者与 AI 落地者都必须正面应对的挑战。然而,如今广泛采用的对齐方式,往往只是让
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!京东集团京东集团探索研究院负责京东集团基础大模型的全链路实现,包括基座模型、预
阅读全文还在为海量 LLM 如何高效选型而头疼?还在苦恼资源有限无法穷尽所有微调可能?来自弗吉尼亚理工大学的最新研究,提出 LensLLM 框架,不仅能精准预测大模型微调性能,更大幅降低计算成本,让 LLM
阅读全文大语言模型(LLMs)常面临“幻觉”问题,输出不可靠信息。不确定性估计作为评估模型输出可靠性的关键指标,对于提升 LLM 可信度、支撑下游任务至关重要。然而,传统基于概率的不确定性估计方法难以有效捕捉
阅读全文论文地址:https://ieeexplore.ieee.org/document/11005686Arxiv地址:https://arxiv.org/abs/2303.09117CMCRL 仓库:h
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港科技大学香港科技大学(The Hong Kong University o
阅读全文近日,MiniMax 正式开启 #MiniMaxWeek 技术周,第一弹重磅发布全新 M1 模型!M1 模型在训练与推理效率方面实现了显著提升。RL训练成本仅需 53.3 万美元,推理效率提升至 De
阅读全文近年来,GPT 等大型语言模型在问答、搜索、医疗等任务中大放异彩,但一个顽疾始终存在——幻觉(hallucination),即模型自信输出却偏离事实。为缓解幻觉,学界提出了 RAG(Retrieval
阅读全文今天给大家带来北京大学彭宇新团队教授的最新工作,一种训练无关的动态聚焦视觉搜索方法,论文已被 CVPR 2025 接收为 Highlight(前 13.5%)并完全开源。论文标题:DyFo: A Tr
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴阿里虎鲸文娱搜索QP团队,负责优酷多端搜索query理解,多语种翻译等
阅读全文近日由香港科技大学广州与上海 AI Lab 联合发布了一项研究成果:Improving Bilinear RNNs with Closed-loop Control,该文章首先对最近高效序列建模方法,
阅读全文什么是“关系幻觉”?如今,多模态大语言模型(MLLMs)已经在我们生活中随处可见,无论是聊天机器人还是自动驾驶,甚至是医疗诊断,都有它们的身影。然而,这些模型有时却会“编故事”,做出与现实不符的错误回
阅读全文论文标题:TIIF-Bench: How Does Your T2I Model Follow Your Instructions?作者单位:北京大学、清华大学、中山大学、香港理工大学、OPPO Y-
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!香港理工大学香港理工大学是一所位于香港特别行政区的公立综合性研究型大学, 坐落
阅读全文最近经常收到读者的留言 : 抱怨科研真是太难了,竞争压力大,导师不给指导、不开组会,一年见不到导师几次,对于论文初稿、毕业论文毫无建议! 其实他不是个例,大家也会有这样的烦恼:前沿顶会、期刊论文、综述
阅读全文领域增量学习(Domain Incremental Learning, DIL)要求模型在动态数据流中持续适应新领域(如风格变化、环境扰动),同时保留历史知识。传统 DIL 方法面临两难困境:一方面,
阅读全文随着遥感与地球观测(Earth Observation, EO)数据日益丰富,如何让 AI 真正理解多模态、多尺度的遥感信息,成为当前人工智能领域的重要挑战。现有的大模型(如 GPT-4o、Gemin
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!联想研究院联想研究院创立于1999年,是联想集团的公司级技术研发机构。从PC互
阅读全文在 AI 的浪潮之巅,大语言模型(LLM)驱动的多智能体系统,正以其强大的协同能力,不断刷新我们对智能的想象。但一个痛点始终存在:构建这些复杂的系统,往往依赖于“炼丹师”们大量的手动设计和调试,这就像
阅读全文图像描述(Image Captioning)是多模态学习中基础且重要的任务,随着 LLM 时代模型的发展,现代的视觉语言模型可以生成详细而全面的描述。然而,由于评测的主观性和困难,当前的视觉语言评测往
阅读全文视频理解是通往 AGI 的必要路径。当前视频理解的探索主要集中于视频事件内容,人物动作,关系等。然而,嵌入视频中的可视文字却往往被忽略。从视频字幕到场景文字(街头招牌,道路指示牌),这些视频文本对于推
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!上海交通大学上海交通大学人工智能学院(https://sai.sjtu.edu
阅读全文搞科研,最怕的就是每天“眼睛读文献,脑袋想方案”。以为只要文献读的够多,准备就足够充分,就能找到好选题,写出好文章。实际上是在用“勤奋读文献”掩盖“不敢开始干”的焦虑。过来人都知道:科研成果是干出来的
阅读全文研究背景:线上文章评分与MLLM的新机遇自动作文评分(AES)是教育评估中的重要技术工具,能实现对大规模写作的高效、稳定评分。然而,传统 AES 实现存在三大缺陷:依赖手工特征,通用性差难以评估细粒度
阅读全文在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现
阅读全文