探索AGI

Langchain年终总结：调研1000人后，Agent最大的敌人终于浮出水面了
作者：探索AGI发布日期：2025-12-18 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~元旦了，Langchain的年末总结来了，调研了1000多位一线人士。结论很简单：Agent已经过了炒概念的阶段，大家在意的不是要不要做，而是怎么做
阅读全文
国产Agent第一股要来了？但官网都打不开，什么妖魔鬼怪？
作者：探索AGI发布日期：2025-12-17 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~早上起来刷到一个新闻，瞬间懵了~国内最大AI数字员工公司冲刺IPO！年入2.4亿，要做企业Agent第一股。数字员工这个词，在国内特别的火，甚至我之
阅读全文
n8n、扣子太难用了，Vibe Workflow 才是更大众的解
作者：探索AGI发布日期：2025-12-16 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~有个很有意思的AI产品，朱啸虎投了，种子轮数百万美金，高瓴也跟了。上周似乎投了一大波流？很多自媒体都在发体验，我上半年就玩过了，体验还不错，还是开源
阅读全文
从大模型到多模态，图文混排Agent彻底起飞~
作者：探索AGI发布日期：2025-12-15 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~上周是智谱的多模态开源周，从GLM 4.6v到Autoglm...看到官方的博客，第一眼比较吸引我的，不是模型本身，是他们给的一个使用场景 - 图文
阅读全文
我逆向了ChatGPT的Memory系统，发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了，昨天，有个国外的老哥逆向了一波，发现了它由4层架构构成。没有向量数据库，没有对历史对话做RAG检索。出乎意外的简单~ ChatGPT的上下文结构。一共由6部分构成。前2部分是一些高级指令，如system prompt，instrucions。接下来4部分是Memory的核心。四层架构：会话元数据、长期用户记忆、最近对话摘要、当前对话窗口。最后一部分是最后一条消息。第一层：会话元数据每次开启会话时，系统会注入一次性的环境信息，包括设备类型、浏览器、大致位置、订阅等级、使用习惯等。包括你用深色模式还是浅色模式，屏幕尺寸多大。这些信息帮助模型适配你的环境，但会话结束就没了，不会永久存储。第二层：用户记忆这是真正的长期记忆。ChatGPT有专门的工具来存储和删除关于你的稳定事实。在我这里，模型存了33条，包括名字、年龄、职业目标、当前项目、学习方向等。但这些不是猜测的，只有两种情况会存储：你明确说记住这个，或者模型检测到符合条件的事实且你没反对。想增删？直接说记住xxx 或删除xxx 就行。第三层：最近对话摘要这部分比较意外。大多数人应该会觉着他们会用RAG检索所有历史对话，其实它用的是轻量摘要。格式大概是：时间戳 + 对话标题 + 用户消息片段。只总结你说的话，不包括助手回复。大约保留15条左右。这给了ChatGPT跨对话的连续感，但不需要拉取完整历史。传统RAG需要嵌入每条消息、做相似度搜索、拉取完整上下文，延迟和成本都高。 ChatGPT的做法是预计算轻量摘要直接注入，用精度换速度。第四层：当前对话窗口这是当前会话的滑动窗口，包含完整对话历史（非摘要）。具体token限制没问出来，但确认了：基于token数而非消息数计算，超出后旧消息滚动淘汰，但记忆事实和对话摘要始终保留。在发消息的时候，会话元数据给环境上下文，用户记忆确保回复符合你的背景偏好，对话摘要提供跨对话的兴趣图谱，当前窗口维持会话内的连贯性。当上下文紧张时，旧消息滚出，但核心记忆始终在。详细细节可以在这里看到：https://manthanguptaa.in/posts/chatgpt_memory/
作者：探索AGI发布日期：2025-12-12 11:11:20
我逆向了ChatGPT的Memory系统，发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了，昨天，有个国外的老哥逆向了一波，发现了它由4层架构构成。没有向量数据库，没有对历史
阅读全文
硅谷用开源模型做闭源，阿里千问杀疯了！
作者：探索AGI发布日期：2025-12-11 14:45:09
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~今天，彭博社爆料，Meta将在明年春季发布牛油果大模型。并且这个闭源模型，是从开源模型中蒸馏来的，其中就包含了千问模型。我们可以很清晰的看到，一个新
阅读全文
Anthropic复盘了Agent元年，下半场别再造Agent了。
作者：探索AGI发布日期：2025-12-10 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~Anthropic 分享了一些最新的insight。一个暴论：别再造 Agent 了，开始造 Skills 吧。早期的时候，他们发现，不同领域的 A
阅读全文
智谱AutoGLM开源了，但手机Agent的真正战场才刚开始。他们的GUI Agent，是怎么应对豆包手机被各大APP封杀的问题呢？首先，值得说的是，他们开源的是完整解决方案，模型MIT协议，代码Apache-2.0，50+中文App适配，Phone Use 能力框架与工具链，拿来就能用。前几天，豆包手机太火了，陆续被各种APP封杀。说白了，大家都觉得你用AI Agent操作我的App，不安全，不合规，管你是什么大模型，先封了再说。从技术上讲，GUI Agent和群控软件是两码事。群控是几百台手机批量执行死命令，做流量造假； GUI Agent是让大模型看屏幕，理解意图，模拟真人操作。谁会用大模型token去做群控？太贵了。但微信不管这些。它的逻辑是：非人操作特征相似，宁可错杀，不放过。问题来了：我花钱买的手机，我注册的账号，我有权利授权我的电子助理帮我操作吗？现实中我让别人帮我回微信没问题，换成AI就不行了？操作系统本应是App的宿主，但超级App已经长成了国中之国，大到可以反过来要挟OS。为什么Agent非要走模拟点击这条路？因为App的大门紧锁。各家都把用户圈在自己的围墙花园里，美团不会开放API让你比价饿了么，淘宝不会让你跨平台一键下单。这等于把流量分发权拱手让人。所以OS级的Agent想要跨应用服务用户，无路可走。那AutoGLM怎么做的呢？云手机+主动放弃微信等敏感App。数据隔离，先把能做的做好。这并没有解决根本问题，现阶段可能根本无解。可能要等到行业被逼出一个标准，等到A2A协议落地。未来也许是这样，各家App内置Sub-Agent接口，OS Agent当总指挥，App Agent当执行者，走标准协议互通。不需要模拟点击，安全可控合规。苹果其实早就搞了App Intents想干这事，但Siri太拉，生态跟着荒废了。回到AutoGLM开源这件事。智谱说，这件事只在一家公司做是不够的。Agent的爆发，需要所有人一起参与。更重要的是，隐私和控制权要留在使用方这边。通过开源和私有化部署，企业可以在自己的环境里掌控一切。这才是开源的意义：技术向生态开放，数据留在用户手里。 github.com/zai-org/Open-AutoGLM
作者：探索AGI发布日期：2025-12-09 11:50:00
智谱AutoGLM开源了，但手机Agent的真正战场才刚开始。他们的GUI Agent，是怎么应对豆包手机被各大APP封杀的问题呢？首先，值得说的是，他们开源的是完整解决方案，模型MIT协议，
阅读全文
苹果年度APP出炉。整体AI味儿有点浓。不是为了AI而AI，用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo，一个给ADHD人群用的AI规划工具。【ADHD: 注意缺陷多动障碍，是一种神经发展障碍。主要表现为注意力无法持久集中、过度活跃和情绪易冲动等。】比如给他说，收拾房间，它把任务拆成一步步的小目标，还预估每步要多久。给他说我要准备面试，它帮你列出具体要做的事，按优先级排好。区别于各种通用Agent，它不是帮我们做事情，是帮这类人群，不知道从哪开始变成下一步做什么。对ADHD来说，这一步非常的难。付费用户50万，年收入1390万美元。 iPad年度应用Detail，AI视频编辑工具。核心功能是一键生成短视频片段，AI自动找到视频里最有趣的部分，帮你剪好。苹果的评价是民主化了视频制作流程。说人话就是：让不会剪辑的人也能做出能看的内容，非常的迎合短视频、直播时代。 Mac年度应用Essayist，处理论文格式的，适合学生群体，自动完成论文排版、图标、共识、脚注等等。 Apple Watch年度应用Strava，老牌APP了，这次主打的智能是，可以把心率、配速、海报这些整理出人话。告诉你这次跑得怎么样，哪里可以改进。分析音乐和天气对你运动表现的影响等等。 Strava去年营收3.38亿美元，月活快5000万。AI只是锦上添花，但这个花加得很有意思。文化影响力奖给了Be My Eyes，给视障人群用的应用。拍张照，AI告诉你照片里是什么。能识别物体、读标签、描述场景。配合全球几百万志愿者，AI解决不了的问题，真人来帮忙。中国区入围的有一个拿了苹果设计奖。叫CapWords，对着东西拍照，AI识别后生成词汇贴纸，所见即所学。支持英语、日语、法语、粤语等。可以很明显的看到一点，到今天，ChatGPT，3岁了。 AI已经不再是产品卖点，赚钱最多的，往往不是AI功能最炫的，而是把AI用得最刚好的。
作者：探索AGI发布日期：2025-12-08 11:50:00
苹果年度APP出炉。整体AI味儿有点浓。不是为了AI而AI，用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo，一个给ADHD人群用的AI规划工具。【ADHD
阅读全文
年终总结，通用Agent在企业落地，为什么这么难？到底要怎么做？
作者：探索AGI发布日期：2025-12-05 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~之前咱们分享过，Gartner预测，到2027年底，超过40%的Agentic AI项目将被取消。为什么很多在Demo阶段表现很惊艳，到企业实践里就
阅读全文
AI Agent在国内，可能真的不存在。 IT之家今天发了个有意思的资讯，豆包和中兴搞了个联名工程机，结果刚登微信，喜提账号冻结提醒。 https://www.ithome.com/0/902/076.htm @布鲁卡介绍了这个事情的来龙去脉：任何试图通过自然语言模拟点击方式操作微信的，都是高压线。微信在这件事情上非常抵触，所以各厂商即便有这个能力，也都下掉了。现在的情况是，豆包手机助手涉及微信的操作直接显示任务失败，明确告诉你不支持微信操作。也就是说，你想让AI帮你发条消息，那是不可能的。唯一解法？张小龙自己做？一个很现实的问题：海外的AI Agent玩的风生水起，各种浏览器自动化、手机操控、全流程代理，在国内呢？可能在很多应用里边，直接走不通。安全和便利的博弈，在国内，安全永远赢。AI悄悄给你卡里的几块钱转走，是最容易被扯出来的借口。但更深层的问题是，应用不可能开放权限让Agent来操作。不然很容易会被干成一个后台程序，这和被干死了没区别。尤其像微信这种，承载了太多东西，通讯、支付、小程序、社交，它不可能甘心变成别人的基础设施。所以说，移动端Agent在国内的落地，可能真的需要换一种思路。要么等wx自己做，要么换个App？但这基本不可能。天下苦wx久矣，但也只能继续苦着。
作者：探索AGI发布日期：2025-12-04 11:50:00
AI Agent在国内，可能真的不存在。 IT之家今天发了个有意思的资讯，豆包和中兴搞了个联名工程机，结果刚登微信，喜提账号冻结提醒。 https://www.ithome.com/0/902/0
阅读全文
Anthropic收购了Bun，Agent 时代，基础设施才是真正的护城河 Bun是一个零收入，720万月下载量，还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执行文件。Bun崩了，Claude Code就崩了。这个事情还有个很有意思的地方， Bun 的创始人Jarred Sumner说, Bun 代码库里合并PR最多的用户，是一个 Claude Code 的 bot。这个bot能自己修 bug、开 PR、写测试、回复 review 评论，完成整个开发流程。Jarred 说这大概领先行业几个月。当大部分代码由 Agent 生成时，基础设施层会变得比以往任何时候都重要。原因很简单： Agent 写代码比人快，一分钟可能跑几十个版本的构建-测试-部署循环，运行时不快就是瓶颈。 Agent 的分发需要极致简洁，Bun 的单文件可执行文件正好解决这个问题。编译成一个二进制，用户不用装 Bun 也不用装 Node，直接跑。上下文窗口寸土寸金，运行环境越可预测、启动越快、输出越干净，Agent 的推理质量就越高。 Claude Code、FactoryAI、OpenCode 这些 AI 工具都在用 Bun 构建。为什么现在不流行云托管了呢？以前投资人问怎么赚钱，标准答案是以后做云托管。 Bun选了第三条路：成为 AI 基础设施的一部分，而不是独立商业产品。这其实是一种新的开源商业模式。直接让大厂买单。用户也不用担心这项目会不会黄。 Anthropic+Bun 的组合，有点像 Google Chrome + V8、Safari + JavaScriptCore 的关系，但会保持更大的独立性。最后 Bun 开源不变、MIT 许可不变、原团队继续维护。对普通用户来说，该用继续用，甚至可以更放心用了。这些都预示着。下一波aI的战场，正从模型下沉到基础设施。
作者：探索AGI发布日期：2025-12-03 11:51:00
Anthropic收购了Bun，Agent 时代，基础设施才是真正的护城河 Bun是一个零收入，720万月下载量，还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执
阅读全文
DeepSeek开源，Agent能力大升级，剧透2026！
作者：探索AGI发布日期：2025-12-02 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~DeepSeek 昨晚更新并开源了 V3.2 正式版，同时带来了长思考增强版 V3.2-Speciale。这次更新最大的亮点在于 Agent 能力的
阅读全文
为什么所有Memory项目都说自己是SOTA？如何让AI记住过去，从而理解未来？ Memory System 似乎变成了一个新的爆发赛道。最近有很多项目在横评这些系统，今天简单点评梳理一下。 Mem0是 2024年火起来的一个项目。它的方案也很简单，自动抽取、自动存储，几行代码就能让AI 变得有记忆。但问题也明显：过度抽取、容易漂移、长期一致性差。它的核心贡献在于，让世界认识了AI记忆，但不是下一代Agent的基础。 Zep是第一个把记忆做成服务的系统，时序图谱、Docker部署、权限体系，企业级可用。而且在很多横评里边，比官方的数据更好，说明整体在持续迭代。它的定位是 AI的数据层，稳健，但不是大脑层。 MemOS走的是另一条路，记忆本身也应该是可学习的结构。张量化记忆单元，很有研究气质，但系统较重，不适合轻量场景。 MemU把记忆组织成树，层级分类、动态扩展。在用户画像这类结构化任务上表现不错，但开放域推理不足。有个问题是外部横评分数远低于官方报告，差距是这几家里最大的。 EverMemOS是最晚亮相的，但技术体系最完整。仿生四层架构，按主题而非token切分记忆，快速召回+深度推理。开源版分数92.3%，是唯一在综合得分上超越LLM Full-context的记忆系统。一句话总结一下：EverMemOS是集大成者，Zep是企业级稳定标杆，MemOS在探索前沿，MemU专注结构化，Mem0完成了早期概念验证。如果说模型代表推理，工具代表行动，那么记忆就代表身份、历史、偏好。没有记忆的AI，只能像失忆症患者一样依赖上下文。这场关于记忆的竞争才刚刚开始。可以在下面地址看到各种评测： https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation https://huggingface.co/datasets/MemTensor/MemOS_eval_result
作者：探索AGI发布日期：2025-12-01 11:53:38
为什么所有Memory项目都说自己是SOTA？如何让AI记住过去，从而理解未来？ Memory System 似乎变成了一个新的爆发赛道。最近有很多项目在横评这些系统，今天简单点评梳理一下。
阅读全文
Agent爆发！一文搞懂智能体所有本质问题
作者：探索AGI发布日期：2025-11-28 11:50:00
前几天刷到条有意思的视频，“AI智能体在2025年注定失败？”看完才发现，还真不是危言耸听。CMU最新研究显示，即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体，在真实任务中的完成率也
阅读全文
Anthropic又承认了，跨上下文窗口工作，Agent还是个弟弟。 Agent做复杂任务，一个对话窗口搞不定怎么办？ Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势，第一种是贪心，想一口气把所有功能全写完，结果上下文爆了，代码写一半人没了。下一个Agent接手的时候，看着一堆残缺代码，只能靠猜。第二种更离谱，Agent看了看项目，发现已经有一些功能了，直接宣布大功告成，收工。解决方案很简单，模仿人的工作方式。一个两阶段系统：第一阶段是初始化Agent，只干一件事，把环境搭好。写个init.sh脚本、建个进度文件claude-progress.txt，做第一次git commit。相当于做一个项目启动会，把需求拆成200多个小功能点，全部标记为未完成。第二阶段是干活Agent，每次只做一件事。每个Agent上来先读进度文件和git log，搞清楚现在做到哪了，然后挑一个没做的功能开干。干完了必须写commit、更新进度文件，保证下一个Agent接手时不抓瞎。核心在于，让每个Agent都能快速理解项目状态。有一个细节很有意思。他们发现Agent特别喜欢自我感觉良好，代码写完就觉得完事了，根本不测。解决办法是给Agent配个Puppeteer，强制它像真人一样去浏览器里点点点，跑端到端测试。这一招下去，bug发现率直接上来了。但也有翻车的时候，比如浏览器的alert弹窗，Puppeteer抓不到，Agent就看不见，这些功能就容易出bug。博客地址：https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents 另外，其实3天前，他们也发了一篇关于ToolUse优化的文章：https://www.anthropic.com/engineering/advanced-tool-use 3板斧 Tool Search Tool，让模型可以按需搜索。 Programmatic Tool Calling，让模型从调用api，变成自己写代码处理数据。 Tool Use Examples，多给一些few shot的工具使用例子。 A社的每一篇博客，其实都在试图把Agent从玄学变成工程学~
作者：探索AGI发布日期：2025-11-27 11:50:00
Anthropic又承认了，跨上下文窗口工作，Agent还是个弟弟。 Agent做复杂任务，一个对话窗口搞不定怎么办？ Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势，第一种是贪
阅读全文
Ilya 最新访谈，预训练时代终结后，AI行业来到了哪里？
作者：探索AGI发布日期：2025-11-26 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~llya Sutskever 终于露面了，而且是一场 90 多分钟的深度访谈！达瓦卡什太牛逼了，今年采访到了Rich Sutton，Karpathy
阅读全文
一句话做电商套图，提效100倍，这可能是今年最成功的电商垂域Agent了！
作者：探索AGI发布日期：2025-11-25 12:00:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~这几天 Nano Banana Pro太刷屏了。模型即产品已经成了大多数人的共识。但是，其实想让模型做好一个垂域场景，SOTA模型其实只是一个半成品
阅读全文
Game Over，NotebookLM最近推出的Slide Decks，彻底杀疯了
作者：探索AGI发布日期：2025-11-24 11:50:00
阅读全文
4天100万下载，这个移动端Agent直接给谷歌偷家了。
作者：探索AGI发布日期：2025-11-22 13:42:51
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~这几天，蚂蚁的灵光真是杀疯了，作为行业首个全模态助手。用了灵光一现，这个名字，真的很妙，离普通人真的非常的近。市场对这个新概念非常买单，上线24小时
阅读全文
Nano Banana Pro 好玩。这几天，奥特曼的日子可能不太好过，专业角度客观分析一下Gemini3 和 Nano Banana Pro。先说 Nano Banana Pro 把，生成的图好看是基本，分辨率4K。但这玩意他是一个披着画画的推理模型。画之前，会先思考。比如说物理模拟，光从哪来，影子怎么投，人物动作。已经不是过去靠概率拼像素的时代了，先预演，在把照片拍给你。所以我们可以看到了，各种，完美处理多格漫画，非常的连续，把气泡里的英文翻译成中文，还能完美地填回去。还有一个被所有人低估的一个功能， Grounding with Search。说白了，就是可以先搜索，把实时的数据，放在预演里边。谷歌本身掌握着全球最大的实时知识库（Search），又有最强多模态模型，还有硬件，这似乎有点恐怖，3季度巴菲特都开始买谷歌了。从Gemini3 ，来看 Scaling law，为什么这玩意又行了？从Gemini开发大佬的twitter说的，就是暴力 Scaling Up。Scaling Law 根本没失效，失效的只是你们数据不够了。马斯克在搞grok wiki，就是因为xAI的数据太脏了，洗不出来。而Google有全球最庞大的高质量私有数据。 Gemini 3 Pro 在预训练和后训练阶段都拉满了 Scaling。虽然感觉复杂代码上似乎还比不上Anthropic，通用认知，世界模型，已经利用数据优势构筑了护城河。 Unseen, Unknown. 最后说个实用的。Nano Banana Pro 的 Prompt 逻辑也变了。 Google 的产品经理 Bea Alessio 给了一套公式：主体 + 构图 + 动作 + 场景 + 风格 + 编辑指令它允许你像剪辑视频一样，输入14张图，保持角色一致，然后随意调整光影、角度。 Google 在告诉世界：通往 AGI 的路，必须是原生多模态。一个能看、能听、能查搜索、还能逻辑自洽的模型，才配叫 AGI。这才是 AI Native 该有的样子。
作者：探索AGI发布日期：2025-11-21 11:52:18
Nano Banana Pro 好玩。这几天，奥特曼的日子可能不太好过，专业角度客观分析一下Gemini3 和 Nano Banana Pro。先说 Nano Banana Pro 把，生成的
阅读全文
Agent最全教程！317页pdf！
作者：探索AGI发布日期：2025-11-20 11:50:00
前几天刷到条有意思的视频，“AI智能体在2025年注定失败？”看完才发现，还真不是危言耸听。CMU最新研究显示，即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体，在真实任务中的完成率也
阅读全文
好消息，基本上AI Coding工具都上了Gemini 3 PRO，坏消息，都不便宜
作者：探索AGI发布日期：2025-11-19 10:33:55
阅读全文
似乎Agent有了一个新范式？上半年，Manus拉起了一个Todolist的风潮。但是上周我测试的K2T ，包括这2天有点热闹的开源模型MiroThinker v1.0，他们都有一个新的共性。长程思考能力。模型自身，可以完成几十轮甚至几百轮的连续思考，每轮都可以多次工具调用，然后反复验证、修正、再尝试。 K2T的Agent分不多说了，但是一个不知名的基于qwen2.5后训练的小模型，可以在GAIA上刷到81.9的分。这个能力是不是会激发新的交互范式？一个新的公式是：能 ∝ 模型与环境的交互深度 × 反思频率。意思是，不是模型越大越好，而是模型与环境互动越深入、反思越频繁，智能就越强。当然长程思考能力，对token消耗会比较高。同时对上下文管理的要求极高，常见的256K可能很长，但是可能很快就被撑爆了。所以另一个很关键的一点是，模型要学会判断什么时候该深入，什么时候该快速收敛。这个开源模型地址在：https://github.com/MiroMindAI/MiroThinker/blob/main/README.md 技术报告还有点意思，可以看一看。不知道实际效果怎么样，我测试了几个检索的，比较容易~ 从L1到L2, 模型学会了思考。这种新的范式是不是已经让我们看到了L3的影子？
作者：探索AGI发布日期：2025-11-18 11:50:57
似乎Agent有了一个新范式？上半年，Manus拉起了一个Todolist的风潮。但是上周我测试的K2T ，包括这2天有点热闹的开源模型MiroThinker v1.0，他们都有一个新的共性。
阅读全文
Agent，源神启动~ 字节整了个原神Agent，Google也发了个游戏Agent SIMA 2。好像很牛，所以仔细瞧了瞧，到底是如何做到让Agent自己玩游戏的呢？核心设计好像就再3点上：第一，一个定时捕捉的视频帧，720P，每200ms捕捉一次。字节的Lumine是基于Qwen2-VL-7B-Base进一步训练的。第二点，混合推理。就是可以选择是不是要思考，简单场景，直接输出动作就好了，比如移动，重复的操作。复杂场景，先进行思考，比如出现了新的目标。第三，就是让模型所有的输出都是，鼠标键盘的序列，直接可执行验证。训练分三个阶段：基础动作→指令跟随→决策推理。从Lumine-Base到Lumine-Thinking，能力是阶梯式上升的。 Base版本能拾取、开宝箱、爬墙，但没有目标导向。 Instruct版本可以完成指令，短任务（10秒至数分钟任务）成功率80%+。在璃月这种没训练过的场景也能自主导航。 Thinking版本，使用了使用15小时的人工标注推理数据。让模型学会自主规划、反思与修正的能力，测试下来，以蒙德主线为测试场景，第一章56分钟搞定，GPT-5要112分钟。第二、三章4.7小时，完成率98.2%，Gemini只完成了65%还用了8小时。跨游戏测试里，《鸣潮》100%完成率，《崩铁》92.3%，《黑悟空》85.7%。所以整体还是靠模型，逻辑应该都是,先在3D游戏里训练通用Agent，因为相对封闭的游戏环境里，规则清晰、反馈明确。然后实际目标是具身智能？难得就是真实世界没有血条和小地图。论文地址：https://arxiv.org/abs/2511.08892
作者：探索AGI发布日期：2025-11-17 11:50:00
Agent，源神启动~ 字节整了个原神Agent，Google也发了个游戏Agent SIMA 2。好像很牛，所以仔细瞧了瞧，到底是如何做到让Agent自己玩游戏的呢？核心设计好像就再3点
阅读全文
OpenAI发了一个怎么做自进化Agent的教程
作者：探索AGI发布日期：2025-11-14 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~前几天，openai发了一个关于 self-evolve 自进化智能体怎么做的博客。核心思路其实很简单，分三步，代码也开源了。Agent跑任务，输
阅读全文
Google、OpenAI 在谁更像人上边杠上了 GPT-5.1 发布， Google 马上给Gemini Live 整了波大更新。他们都在做更拟人。 OpenAI 加了个全新的对话风格设置系统。可以直接在设置里调，语气、回复长度、信息结构、表情符号频率这些东西。新模型的洞察力非常强，只要用大脑里边第一时间想到的词发问，它就能领会。即使有模糊不清的地方，也会主动和你确认。但如果刻意加一堆限定和描述，反而回答可能产生不合适的偏向。只能说大模型已经对人类的思维模式越来越了解了。目前社区实测下来的几点共识： 1. 创造性写作质量明显提升 2. 推理和复杂任务链条更稳定 3. 在部分benchmark、coding任务上表现接近或超出现有顶级模型。尤其是写作这块，GPT‑5.1级别模型的爽感，非常直观。如果你本来就靠内容、产品文案、方案输出吃饭，它会直接改变你的工作方式。可能好多基于claude code做写作工作流的博主们（或者其他方面），搞了很多。。。不如模型升级。。。一句话的优化结果，比你折腾一通高得多。不知道gemini3.0pro能一较高下吗。不过gemini3应该更强的还是coding上的能力其他方面仍待进一步实测。 Google今天也给Gemini Live推出了重磅更新。可以调节语速、可以成为你的外教，模拟现实场景，即时互动，提问，纠正。还可以模拟面试，排练演讲。支持沉浸式讲故事，加上了情绪调节，人物口音，比如牛仔口音，伦敦腔等等。
作者：探索AGI发布日期：2025-11-13 11:50:00
Google、OpenAI 在谁更像人上边杠上了 GPT-5.1 发布， Google 马上给Gemini Live 整了波大更新。他们都在做更拟人。 OpenAI 加了个全新的对话风格设
阅读全文
AI生的图能分图层，Agent控制能力进入下半场
作者：探索AGI发布日期：2025-11-12 11:50:00
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~最近Lovart上线了个功能，名字朴实无华，Layered Image Editing ，中文叫编辑元素？我们很少分享多模态相关的内容，但是这个功能
阅读全文
Perplexity 分享了他们的技术架构。团队38个人，4个月干出了月活4亿。博客在这，内容有点长，而且很多图： https://blog.bytebytego.com/p/how-perplexity-built-an-ai-google 但是核心就干了三件事：搜索 + AI生成 + 给来源。听起来很简单，工程设计才是壁垒。他们用Vespa.ai建了个巨大的索引，2000亿个URL，400PB的热存储，几万个CPU在跑，而且不是静态索引，每秒处理几万次更新，保证信息永远是最新的。混合检索，向量+BM25+精排，同类方案P95延迟是400-800ms，Perplexity压到了200ms以内。Vespa把数据、索引、计算逻辑全放在同一个节点上，避免网络IO，分布式查询并行跑。 Perplexity用的不是自己的模型，而是混着用。简单问题用自研的便宜模型Sonar，复杂问题才调GPT-4或Claude。常规操作，既快又省钱，核心是用最小的模型搞定最好的体验。 Sonar模型也不是从头训练的，拿开源模型微调，比如之前他们微调deepseek，说什么去掉xxx，在抱抱脸上一堆人喷。训练数据都来自用户交互，微调的目的是提升3个能力：精准摘要 + 正确标注引用 + 严格基于检索内容回答。推理部分用了自研的ROSE引擎，跑在AWS的H100 GPU上。架构上部分用Rust重写，不是纯python。推理解码算法支持投机解码和MTP。还有个黑科技，AI自改进的内容解析，因为网页结构千奇百怪，所以他们尝试用模型动态去生成解析规则。系统会评估当前规则的完整性和质量，然后自己提出改进方案、验证、部署。这套循环可以让系统持续进化，把非结构化网页最好的解析切分。没啥抄的，因为perplexity的护城河不是某个模型，是端到端的系统工程能力。从检索、排序、生成到推理，每一层都有深度优化。
作者：探索AGI发布日期：2025-11-11 11:50:00
Perplexity 分享了他们的技术架构。团队38个人，4个月干出了月活4亿。博客在这，内容有点长，而且很多图： https://blog.bytebytego.com/p/how-perp
阅读全文
谷歌Nano Banana 2 来了，图片AGI提前到来？
作者：探索AGI发布日期：2025-11-10 11:50:09
嘿，大家好！这里是一个专注于前沿AI和智能体的频道~伴随着 Gemini 3、GPT 5.1 的各种小道消息散播半个月。Nano Banana 2，2K原生输出，竟然要提前来了，春节前大玩具有了。今年
阅读全文

上一页下一页