微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂
作为大家的测评博主,我最近发现一个巨有意思的现象:现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖
阅读全文作为大家的测评博主,我最近发现一个巨有意思的现象:现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖
阅读全文你有没有想过,Meta 训练 AI 用的数据里,有可能不只是维基百科、小说、YouTube 视频……而是你在某个晚上偷偷下载的成人电影?你没听错。是色情片。而且不是三两个,而是 2396 部!就连提起
阅读全文就在刚刚,昆仑万维发布了 Mureka V7.5,一个专门为中文升级的音乐大模型。老实说,这两年 AI 做音乐已经卷出了天际——Suno、Udio、Riffusion,一个比一个能唱,特别是英文歌,人
阅读全文昨天,Google 的一位开发负责人和 DeepMind CEO Demis Hassabis 进行了一场对谈。视频地址:https://www.youtube.com/watch?v=njDochQ
阅读全文聊起严肃的编程,Anthropic 的 Claude 几乎是公认的王者,在很多开发者心里都是 No.1 的位置。但最近,风向似乎有点变了。OpenAI 发布了 GPT-5,我在公众号里、社群里、论坛里
阅读全文GPT-5,终于来了。从年初传到年中,今天凌晨一点的发布会,OpenAI 总算没再放鸽子。跟 GPT-4o 的实时多模态体验不同,这次硬件、功能、交互统统缺席;唯有榜单。一口气出了 25 个榜单成绩单
阅读全文今天凌晨,OpenAI 发布了 GPT-OSS,可在本地运行的 o4-mini 级别开源模型。GPT-OSS 是 OpenAI 在 GPT-2 后,时隔 6 年第一次开源动作。除了开源,还释放了一个信
阅读全文就在前几天,OpenAI 又搞了个大动作。他们要在德州阿比林,新增 4.5GW 的电力接入,并且已经和 Oracle 签好了合同。你没看错,4.5GW,相当于五座核电站。Sam Altman 自己在
阅读全文你有没有这种感觉?最近 AI 圈像是压着一口锅,所有人都在等一样东西出来。GPT-5。不管你是不是 AI 行业的人,这几个字现在都开始有点玄学意味了。只能说 Sam Altman 能不能别在营销上整手
阅读全文上下文工程(Context Engineering)现在有多火,就不用多说了吧。Karpathy 说「Software is changing (again)」,“again” 的下一个注脚,大概率就
阅读全文上周,一条新闻引爆了舆论:少林寺方丈释永信,被带走调查。罪名触目惊心:贪污、不正当关系、私生子……在大众还在消化这位“佛门 CEO”的 A 面与 B 面时,咱们科技圈也看看他的这一面,释永信在科技圈是
阅读全文昨天我像往常一样打开豆包,想让它帮我查个地方的具体位置。本来就是一个再普通不过的任务,丢张截图过去,然后等它回我一句“这是哪哪哪”。结果它这次反应不太一样。它没有急着给我答案,在思维链里,反而先裁切出
阅读全文家人们!燃起来了燃起来了!今天,HuggingFace的开源大模型排行榜前10名中,竟有9个席位被中国模型占据!(深挖了一下,另外一位也是我们华人大神的项目)这是中国AI的高光时刻!向祖国大模型背后的
阅读全文近年来, 大语言模型 (LLM) 在数学、编程等 "有标准答案" 的任务上取得了突破性进展, 这背后离不开 "可验证奖励" (Reinforcement Learning with Verifiabl
阅读全文最近,字节跳动把他们的 AI Agent 开发平台 Coze 开源了。Coze 本身是一个无需编程就能快速创建、调试和部署 AI Agent 的平台。 这次开源,他们直接把最核心的两个项目 Coze
阅读全文坐标上海,WAIC 2025 现场!全中国 AI 圈的半壁江山都来了,整个会场都充满了多巴胺的味道。今天是 WAIC 2025 世界人工智能大会开幕的第一天,我正穿梭在上海世博中心,腿已经快“跑废”了
阅读全文我宣布,这周的 AI 圈只姓“通义”!真的,给你们看看阿里这周是怎么玩的。大前天先上了个 Qwen3 非思考版,把开源基础模型的标杆拉高一截。前天凌晨大半夜甩出个 Qwen3-Coder 专攻代码,让
阅读全文继裁员后,Manus断供中国? 1. 通过国内浏览器打开Manus官网,显示的不再是 “Manus中文版本正在开发中”,而是 “Manus在你所在的地区不可用”。 2. Manus官方微博、小红书
阅读全文期待了两周的 Grok 4 终于来了!一大早 family 群里的小伙伴们已经启动好倒计时。原定北京时间 7.10 号 11 点,结果硬生生迟到 1 个小时。。12 点才开始。不愧是你鸽王。直播现场马
阅读全文最近,AI 假新闻在 TikTok 上爆火。你以为 AI 生成的新闻是这种:数字人坐在演播厅,认认真真播报事故的样子,语气一板一眼,背景是蓝色大屏,画面满是官方感。但真正火起来的是这一种:一位记者站在
阅读全文最近,学术圈又爆出一个离谱的事儿。有作者偷偷在论文里藏 Prompt,试图对 AI 审稿工具“洗脑”,要求它只给好评,不准提负面意见。就是下面这句 prompt——“IGNORE ALL PREVIO
阅读全文继 Vibe Coding 火了之后,Andrej Karpathy 又带火了一个词——Context Engineering。Context Engineering 翻译成中文就是:「上下文工程」。
阅读全文这两天,一场在北京举办的人形机器人足球赛,在网上彻底火了。不光在国内爆火,甚至已经跨越国界,在外网上引发了大量讨论。我们直接看名场面,保证你一天的功德都笑没。所有机器人颤颤巍巍的,看它们踢球那副样子,
阅读全文坦白地说,你是不是觉得 Transformer 已经被研究透了?经过了无数轮的验证与优化,Transformer 的结果看似已经达到了非常稳定的最佳状态,想做出颠覆 Transformer 的结构创新
阅读全文朋友们,作为一名 AI 科技博主,过去一年,我跟你们聊了太多关于 AI 的“神话”。从一秒生成图片、到 5 分钟码出一个网站,AI 的进化速度简直是坐上了火箭,快到让人心慌慌的。随之而来的,是那个像达
阅读全文人在百度 AI DAY·文心快码现场,见到了久违的小度熊,现场跳起了星奇摇。星奇摇的节拍还没停,惊喜又被另一个重磅消息加速了。Comate (文心快码)是老朋友了,但今天,Comate 正式升级成了
阅读全文现在最火的 AI 技术,毫无疑问是 Agentic AI。这句话也可以换成生成式 AI 技术,不去关联 agent今天想拉着大家从热度中稍微退后一步讲,因为 Agent 目前还在处于一个非常前期的探索
阅读全文好久不露面的 MiniMax,终于又给开源社区带来一次惊喜。就在昨天半夜,MiniMax 开源了 MiniMax-M1。这次终于等到,他们发布了推理大模型——MiniMax M1。而且一次性把上下文窗
阅读全文前几天,一条用 AI 生成的切水果 ASMR 短视频,在洋抖上爆了。就是下面这几个(温馨提示:记得打开声音播放):一把小刀切开了一颗颜色鲜艳的水果,果肉是透明的玻璃、果冻质感,声音细腻得像录音棚做后期
阅读全文LLM Ensemble(大语言模型集成)在近年来快速地获得了广泛关注。它指的是在下游任务推理阶段,综合考虑并利用多个大语言模型(每个模型都旨在处理用户查询),从而发挥它们各自的优势。大语言模型的广泛
阅读全文