人大高瓴赵鑫团队新作:先拆掉 RLVR,再重建推理模型训练
A3PO:针对冷门正确与自信错误 token 的非对称强化学习方法。作者丨郑佳美编辑丨岑峰当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,
阅读全文A3PO:针对冷门正确与自信错误 token 的非对称强化学习方法。作者丨郑佳美编辑丨岑峰当大语言模型开始被要求解数学题、写证明、规划任务流程,人们才真正意识到一件事:会生成并不等于会推理。过去几年,
阅读全文当代打工人的浏览器标签栏里,藏着各种各样的秘密:帮忙润色文案的 AI 工具、汲取灵感的视频素材库、应付周报的模板网站,还有那些越装越多的浏览器插件。说到底,这些都是为了一个目的:在有限的工作时间里,少
阅读全文前段时间,听了一档播客,叫「苔藓之火」,其中有这么一个片段,印象深刻:家里人抗拒使用专业 AI 产品,但乐于使用 AI 功能而播客里提到的夸克,近期对一系列更新,也是聚焦在了非协作式一人办公对此,和
阅读全文图片由AI生成▎Agent任务泛化能力超Claude最新模型。文|LCC_Beta版作者|李程程编辑|李玉鹏本文首发于钛媒体APP1月16日,美团LongCat官宣, LongCat-Flash-Th
阅读全文2023 年,当 GPT-4 在美国执业医师资格考试(USMLE)中取得了惊人的高分时,不只是 OpenAI,硅谷都为此喝彩,AI 在医疗上的前景仿佛一片光明。三年之后的今天,却有顶尖专家明确表示:反
阅读全文图片来源:The OpenAI PodcastZ Highlights我们进入了一个模型不再只是“工具”的时代。真正的突破,不在于它能做多少事,而在于它是否能读懂你的意图、情绪与沉默。个性化不是“可选
阅读全文图片来源:Macroscope官网Z Highlights 软件团队每天沉浸在无数PR、会议和碎片化工具中,但真正的工程真相却始终模糊不清。管理层想要visibility,工程师想回归写代码,组织却被
阅读全文图片来源:ReplitReplit 已成为构建 AI 编程工具的领军企业,这些工具可供专业开发人员和编程新手用于编写和调试软件,同时该公司也面临着其他初创公司和大型科技企业的竞争。知情人士透露,人工智
阅读全文图片来源:Parloa柏林人工智能客服初创公司Parloa 获得现有投资者 3.5 亿美元 D 轮融资,这家成立六年的企业估值已达 30 亿美元。距离该公司以 10 亿美元估值完成 1.2 亿美元融资
阅读全文整理 | 华卫 几个小时前,有大批开发者反馈:GitHub 大面积宕机了,社交平台上充斥着“粉色独角兽”的截图和相应的控诉。对于此次故障的原因,目前 GitHub 还未给出详细分析报告。然而,不少开发
阅读全文作者 | 褚杏娟本文为《2025 年度盘点与趋势洞察》系列内容之一,由 InfoQ 技术编辑组策划。本系列覆盖大模型、Agent、具身智能、AI Native 开发范式、AI 工具链与开发、AI+ 传
阅读全文编辑|Panda、杨文临近春节,各家 AI 厂商进入冲刺阶段,纷纷亮出最新大模型成果。1 月 15 日,美团也重磅更新自家模型 ——LongCat-Flash-Thinking-2601。这是一款强大
阅读全文编辑|张倩继奥特曼在 OpenAI 的「宫斗」大戏后,他的老搭档 Mira 这周的经历也够拍一部电视剧了。昨天,我们报道了前 OpenAI CTO Mira Murati 创办的 Thinking M
阅读全文随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理服务效率的核心瓶颈。自回归生成的特性使得模型必须存储历史 token 的 key-value 状态(即 KV cache)
阅读全文今天是一期硬核的话题讨论:Coding Agent 评测。AI 编程能力进步飞速,在国外御三家和国产中厂四杰的努力下,AI 编程基准 SWE-bench 的分数从年初的 30% 硬生生拉到了年底的 7
阅读全文OpenAI 前脚低调推出专门的翻译功能,Google 后脚就开源了专业的翻译模型。世道变了,谷歌反守为攻,OpenAI 步步为营啊!!但是,我们喜闻乐见,他们越卷,我们越开心。今天来看看这个 Tra
阅读全文新智元报道 编辑:编辑部【新智元导读】人人都在夸智能体有多强,但真正的生死考场从不是Demo现场,而是几亿金额、零容错的招标采购。英伟达和OpenAI才刚喊口号,但这家AI已经先走了一步,趟过落
阅读全文新智元报道 编辑:定慧【新智元导读】你花大价钱买的顶级GPU,可能30%时间都在「发呆」——不是算力不够,而是数据喂不上。这个被严重低估的AI困境,正在吞噬无数企业的真金白银。今天AI算力中心正
阅读全文新智元报道 编辑:元宇【新智元导读】「3年内,我们熟悉的科学研究将不复存在!」德国物理学家Sabine Hossenfelder这句「末日预言」,戳破了所有知识工作者的安全感。AI正在攻破人类智
阅读全文用数百Agent并发,连续跑数周,耗费数万亿token,我们能收获什么? Cursor做了一个很有意思的实验,做了个让很多Agent并发工作很长时间,分享了他们发现的经验。 最开始,尝试用一个去中
阅读全文作者|Yoky邮箱|yokyliu@pingwest.com千问对自己挺狠的,或者说阿里对自己挺狠的。用一个千问,把过去二十年的阿里,变成了一个AI Agent。1月15日,千问App宣布全面接入淘宝
阅读全文作者|陆邮箱|xiaoyu@pingwest.com在很长一段时间里,性能手机往往要在“轻薄手感”和“极致续航”之间做单选题,想要旗舰级的处理器和散热,机身往往厚重如砖;想要轻薄手感,电池容量就得缩水
阅读全文文章转载于字母AI美国AI公司们,最近又开始忙着投资电厂了。近期,Meta与美国电力企业Vistra签署长期购电协议,从其旗下多座现役核电站直接采购电力;此前,Meta还与Oklo、Terra Pow
阅读全文一水 发自 凹非寺量子位 | 公众号 QbitAI唯“快”不破的美团闪购,这次搞了一波AIGC技术流营销。先说结论,从已经公开的视频来看,他们算是终于回答了一个近几年被反复提起、却很少被真正解决的问题
阅读全文闻乐 发自 凹非寺量子位 | 公众号 QbitAI你懂OCR吗?2025年之前,可能人人都懂。但2025年之后,你还认为你真的懂OCR吗?是的,随着AI大模型研发在架构、记忆、存储等等领域的深水区创新
阅读全文MemGovern团队 投稿 量子位 | 公众号 QbitAI人类程序员碰到棘手bug通常会上网查询前辈经验。当前AI虽然开始具备联网搜索能力,但仍不能很好地从网络经验中获取修复bug的能力。让AI学
阅读全文Anthropic 刚刚发布了第四份经济指数报告,这次他们搞了个 经济基元(economic primitives) 的新概念。简单来说,就是用五个基础指标来衡量 AI 的使用情况:任务复杂度、所需教
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!像一位经验丰富的数据库工程师那样去
阅读全文专注AIGC领域的专业社区,关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型(LLM)的发展和应用落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注!AlphaFold获得诺贝尔奖标志
阅读全文