刚刚,Anthropic证明:AI开始拥有内省能力
家人们,不知道你有没有试过,在和 AI 聊天时,冷不丁地问一句:“你刚刚在想什么?”咱就是说,AI 通常会给出一个听起来很合理的回答。但我们心里都清楚,它很可能只是在“扮演”一个会思考的实体——根据我
阅读全文家人们,不知道你有没有试过,在和 AI 聊天时,冷不丁地问一句:“你刚刚在想什么?”咱就是说,AI 通常会给出一个听起来很合理的回答。但我们心里都清楚,它很可能只是在“扮演”一个会思考的实体——根据我
阅读全文这几天,硅谷最热的话题是「裁员」。而且是雪崩式的裁。10 月 28 日,亚马逊内部发出通知:将启动公司历史上最大规模的一轮裁员,预计波及多达 3 万名企业员工,占其整体白领团队的 10%。涉及的,不只
阅读全文OpenAI 前 CTO Mira Murati 的创业公司又有大动作。继 10 月初发布首款产品 Tinker 之后,Thinking Machines Lab(TML)今天公布了又一项重磅研究成果
阅读全文周末,我刷到 MiniMax Agent 海外版悄悄上新了 M2 模型。当时正在看别的东西,没在意。直到打开 Artificial Analysis 一看——智能指数排名第五。前面四个是 GPT-5、
阅读全文昨天看到一篇论文,非常有意思。论文标题起的很直接,叫《LLMs Can Get "Brain Rot"!》(大语言模型会脑残化!)。翻译成大白话就是,AI 刷多了垃圾社交媒体内容,真的会变傻,傻的很彻
阅读全文Google 量子团队原先硬件负责人 John Martinis 在月初刚刚获得了 诺贝尔物理学奖,而就在今天上午,Google 量子团队的最新成果又登上了《Nature》封面。而这带来了一个重要信号
阅读全文现在 AI 能写代码、能画画,但你有没有想过,让 AI 去拧个瓶盖,为什么就这么难?因为拧瓶盖这件事,需要三个能力同时在线:眼睛-视觉(Vision): 它得先看懂——哪个是瓶子?哪里是盖子?盖子纹理
阅读全文Gemini 3.0 疑似以代码名 lithiumflow(Pro 无搜索)和 orionmist(Pro 带搜索或 Flash)在 LM Arena 上线测试!目前仅在 LM Arena 的实时对战
阅读全文昨天,DeepSeek 连发两招。早上,它在 AlphaArena 炒币大赛上拿下实盘第一;晚上,顺手扔出一个全新开源模型:DeepSeek-OCR。先放上地址:Hugging Face:https:
阅读全文这世上有太多 AI benchmark 了,但没有一个 benchmark 能让你心跳加速。直到近日,AlphaArena 出现了。这是由初创团队 NOF1 推出的一个「AI 炒币实盘竞技场」,现在已
阅读全文前不久,OpenAI 的两大巨头——首席科学家 Jakub Pachocki 与首席研究官 Mark Chen 共同接受硅谷风投 a16z 深度访谈,首次系统性地揭示了 GPT-5 的真实定位——这不
阅读全文在这篇文章中,我们提出了 EntropyLong,一种基于预测不确定性的长文本数据构造方法。该方法通过模型的预测熵来识别信息缺失的位置,检索相关上下文,并验证这些上下文是否能够降低预测不确定性,从而构
阅读全文AI 声音要卷的飞起了。今天,火山引擎升级了两个语音模型:豆包·语音合成模型 2.0 和豆包·声音复刻模型 2.0。如果你还对“AI 声音”这几个字不感冒,一定要留下来看看。用文字说挺费劲的。语音这种
阅读全文你可能云养过猫、云吸过狗,但你想过“云养机器人”吗?不是看看视频那种云养,是真的能远程操控——你在北京敲代码,机器人在深圳的实验室里帮你擦桌子、叠衣服。做完了还能打分,告诉你算法哪里需要改进。这不是科
阅读全文今天早起刷到,蚂蚁百灵团队发布并开源了一个万亿参数思考模型—— Ring-1T。说实话,我已经很久没对大模型的参数产生兴趣了,从技术角度讲,万亿是一个很难的赛道,训练难,成本高、稳定性更是噩梦。更何况
阅读全文常刷论文的家人们可能已经发现,昨天 AI 三大顶会之一的 ICLR 2026 放出来 Open Review 了!给不太熟悉会议流程的朋友,简单普及一下,Open Review 是一个开放评论平台,在
阅读全文昨天,State of AI Report 2025 正式发布了。背后主笔是硅谷投资人 Nathan Benaich 和他创办的 Air Street Capital,从 2018 年开始,这份报告就
阅读全文家人们,放假第一天 OpenAI 就又给拽起来了,就在今天凌晨,OpenAI 宣布—Sora 2,来了!在 2024 年 2 月,初版 Sora 亮相时,可以被称为 GPT-1 时刻,因为,Sora
阅读全文今天凌晨 Claude 发布 Claude Sonnet 4.5——「世界上最好的编码模型」(Claude 称)。真不愧是国庆,前脚 DeepSeek 刚刚抛出 v3.2-Exp,后脚 Claude
阅读全文这两天我读到一篇论文,还挺有意思的和大家分享一下。麻省理工与哈佛大学的研究团队人员,潜入了 Reddit 上一个名为「我的男朋友是 AI」的社区,花了整整 9 个月,爬取并分析这个社区里的 1506
阅读全文今天凌晨,OpenAI 悄悄放了个大招——ChatGPT Pulse 预览版上线了。如果你之前习惯的 ChatGPT 是“你问它答”,那 Pulse 带来的,是一个全新的交互逻辑——异步搜索。它到底怎
阅读全文这两天正值釜山电影节。我一个 AI 圈的,为啥会关注到电影圈呢?倒不是因为我爱看电影,而是因为电影节的放映单元,突然冒出来了我们圈子里几个“老熟人”:Seedream(图像创作模型)、Seedance
阅读全文今天人在阿里云栖大会现场!今年是阿里云栖大会 10 周年,也是我第三次现场参会。云栖大会是全球技术的风向标,每年都会给我一些新的思考,但今年,阿里巴巴的新帅吴泳铭,带来的不只是思考,准确点说,是一份
阅读全文2025 年是 AI Agent 的元年时刻——这句话最近频繁出现在各种报道中。我也认同。但我觉得元年的意义,不是一个新概念的诞生,而应该是价值兑现。也就是说,AI Agent 不再只是技术演示,而是
阅读全文就在昨天深夜,马斯克的 xAI 悄无声息地扔出了一颗重磅炸弹——Grok 4 Fast!熟悉 AI 圈的家人们都知道,xAI 的迭代速度堪称恐怖(xAI 到底怎么做到,这么少的开发人员,模型更迭的这这
阅读全文今天来聊一下——强化学习。因为在 AI 领域,很少有技术能像强化学习(Reinforcement Learning, RL)这样引发如此矛盾的情绪。强化学习,第一次进入大众视野,是因为 AlphaGo
阅读全文凌晨一点,OpenAI 发布了 GPT-5-Codex,但这次,所有想调用 API 的开发者可能要失望了。OpenAI 做了一个决定:Codex 并不通过 API 开放。你不能靠 key 来偷偷调用
阅读全文就在刚刚,Anthropic 发布了一报告,名字听上去有点学术腔——《人类经济指数》。但别被这个名字骗了,它是一份非常具体、非常当下的观察笔记,可以说和我们息息相关。原文链接:https://www.
阅读全文昨天半夜刷到 MiniMax 又搞事情了,这次轮到音乐大模型升级。说实话,看到这个消息我第一反应不是“哇好厉害”,而是想到一个问题:中国在声音这个赛道上,要翻身了。前段时间 MiniMax 的 Spe
阅读全文家人们,你敢信吗?一家成立仅半年,0 产品、0 用户的初创公司,估值已经飙到了 102 亿美元(约合人民币 850 亿)!你没听错,数字是真的,事儿也是真的。这家公司,就是由前 OpenAI CTO、
阅读全文