性能准确率突破96%!上海算法创新研究院发布xVerify:面向推理模型的答案评估器
为什么要做 xVerify?当前推理模型( Reasoning Model)在多个领域取得了显著进展,但在长推理链、 困难数学表达式、多语言等复杂场景下,答案抽取与验证仍面临以下挑战:慢思考场景:长推
阅读全文为什么要做 xVerify?当前推理模型( Reasoning Model)在多个领域取得了显著进展,但在长推理链、 困难数学表达式、多语言等复杂场景下,答案抽取与验证仍面临以下挑战:慢思考场景:长推
阅读全文概况双目立体匹配是计算机视觉中几十年来经久不衰的一个研究课题,其主要是从矫正的左右目图像中恢复稠密的匹配视差。进入深度学习时代后, 双目匹配的准确度和鲁棒性都得到了稳步的提高。然而,现在模型仍然受到搜
阅读全文音视频问答(Audio-Visual Question Answering, AVQA)是一项具有挑战性的多模态推理任务,需要智能系统理解音频-视频输入,准确回答自然语言查询。然而,现有的 AVQA
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!阿里巴巴我们做什么?视觉生成:文生图,文生视频,图生视频视觉编辑:图片编辑,视
阅读全文2025开年,AI技术打得火热,正在改变程序员的职业命运:阿里云核心业务全部接入Agent体系;字节跳动30%后端岗位要求大模型开发能力;腾讯、京东、百度开放招聘技术岗,80%与AI相关……大模型正在
阅读全文LLM Ensemble(大语言模型集成)在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),从而发挥它们各自的优势。大语言模型的广泛
阅读全文©作者 | 娄蒙、俞益洲单位 | 香港大学计算机系香港大学计算机系俞益洲教授及其研究团队开发了一种新型的通用视觉 backbone—TransXNet,该模型同时融合了全局和动态性。其创新之处在于引入
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!美团团队致力于构建下一代智能搜索系统,通过强化学习(RL)和大语言模型(LLM
阅读全文⬇️ 点击查看中选成果 ⬇️🔗蚂蚁集团17篇论文被机器学习顶会ICLR 2025收录,其中一篇入选Spotlight点击下方公众号名片关注蚂蚁集团招聘获取更多AI前沿资讯与顶尖职业机会⬇️ 点击阅读全
阅读全文目前,大模型推理领域的强化学习(如R1-Zero)主要面向数学和代码等任务,将其应用于开放式自然语言生成任务(如,机器翻译),面临着奖励设计困难、推理能力诱导不确定、泛化能力待验证等诸多未知的挑战。针
阅读全文多模态大语言模型(MLLM)作为具身智能(Embodied AI)和自动驾驶(Autonomous Driving)的端到端解决方案已成为主流趋势,并在视觉语义理解任务中取得了显著进展。然而,它们在现
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!清华大学 × 生数科技随着生成式人工智能的快速发展,多模态生成模型正引领 AI
阅读全文在大规模语言模型(LLM)的训练过程中,强化学习(RL)已被证明能够在没有监督微调的情况下直接增强模型的推理能力。DeepSeek-R1-Zero 的提出,突破了传统的训练方式,通过引入 R1-Zer
阅读全文文章标题:AIGVE-Tool: AI-Generated Video Evaluation Toolkit with Multifaceted Benchmark项目主页:https://www.a
阅读全文©作者 | 王浩单位 | 浙江大学来源 | 机器之心本文由浙江大学、中南大学、上海交通大学、Tiktok、北京大学、南洋理工大学联合完成。第一作者王浩为浙江大学硕博连读生,发表NeurIPS、ICLR
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!高德地图高德共享出行,是国内首创的一站式聚合打车平台,汇聚了全国范围内的各家运
阅读全文沃的顶会强化学习(RL)与多目标优化(MOO)的深度融合正推动AI决策能力迈向新高度。港科大团队提出的动态梯度平衡框架,通过多任务协同优化,在自动驾驶场景中同时提升安全性(碰撞率↓38%)和能效(能耗
阅读全文深度神经网络(Deep Neural Network, DNN)模型已经在各行业中广泛应用,由对抗样本引发的安全问题受到日益关注。现有对抗鲁棒性评测平台不具备自动优化模型架构或自动提升攻击性能的能力,
阅读全文近日,浙江大学赵洲教授团队联合字节跳动,发布第三代语音合成模型 MegaTTS3,在各大专业评测数据下均展现领先水平。MegaTTS3 以仅 0.45B 参数的轻量化架构,不仅实现高质量的中英双语语音
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!佛罗里达大学佛罗里达大学坐落于Gainesville,是一座大学城风格的城市,
阅读全文宣传海报关于讲座报告时间2025年4月15日(周二)20:00-21:30(北京时间)报告时长60分钟+30分钟提问互动报告题目并联机器人机构学基础与装备创新观看方式扫码入会:如果您之前未关注“Wil
阅读全文本文为大家介绍上海科技大学 YesAI Lab 在 CVPR 2025 上入选 Highlight 的工作。本研究针对视觉语言模型提示学习中的带噪标签问题,提出了一种新的鲁棒提示学习方法 NLProm
阅读全文©来源 | 机器之心在大模型迈向推理时代的当下,数学推理能力已成为衡量语言模型智能上限的关键指标。近日,LLM360 推出了 MegaMath:全球目前最大的开源数学推理预训练数据集,共计 3710
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!美团美团的使命是“帮大家吃得更好,生活更好”,公司聚焦“零售 + 科技”战略,
阅读全文最近,由 Anthropic 推出的 Computer Use 利用基于多模态大模型的智能体操控电脑完成各种任务,让人们为之兴奋,也带动了学术界与工业界在 OS Agents 相关领域的研究与发展。浙
阅读全文射学影像是现代医疗诊断的关键,每年全球约有 80 亿次影像检查。随着 AI 技术的快速发展,医学视觉语言模型 (VLM) 在放射学任务中显示出良好的前景,但大多数现有的 VLM 仅产生最终答案而不展示
阅读全文©来源 | 机器之心在视觉生成领域,扩散模型(Diffusion Models)已经成为生成高质量图像、视频甚至文本的利器。然而,生成结果往往离我们所偏好的不一致:结果不美观,图文不符,等等。虽然我们
阅读全文合适的工作难找?最新的招聘信息也不知道?AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职!地平线地平线是市场领先的乘用车高级辅助驾驶和高阶智能驾驶解决方案供应商。我们的
阅读全文本文系统总结了多语言大模型的相关工作,探讨了跨语言大模型对⻬⽅法,包括参数调整对⻬和参数冻结对⻬。同时该综述也涵盖了多语⾔⼤模型的训练数据和未来⽅向,希望帮助研究者全面了解多语言大模型的研究现状。该工
阅读全文论文标题:Bridging Traffic State and Trajectory for Dynamic Road Network and Trajectory Representation Le
阅读全文