全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    我逆向了ChatGPT的Memory系统,发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了,昨天,有个国外的老哥逆向了一波,发现了它由4层架构构成。 没有向量数据库,没有对历史对话做RAG检索。出乎意外的简单~ ChatGPT的上下文结构。一共由6部分构成。 前2部分是一些高级指令,如system prompt,instrucions。接下来4部分是Memory的核心。四层架构:会话元数据、长期用户记忆、最近对话摘要、当前对话窗口。 最后一部分是最后一条消息。 第一层:会话元数据 每次开启会话时,系统会注入一次性的环境信息,包括设备类型、浏览器、大致位置、订阅等级、使用习惯等。 包括你用深色模式还是浅色模式,屏幕尺寸多大。 这些信息帮助模型适配你的环境,但会话结束就没了,不会永久存储。 第二层:用户记忆 这是真正的长期记忆。ChatGPT有专门的工具来存储和删除关于你的稳定事实。 在我这里,模型存了33条,包括名字、年龄、职业目标、当前项目、学习方向等。 但这些不是猜测的,只有两种情况会存储:你明确说 记住这个 ,或者模型检测到符合条件的事实且你没反对。 想增删?直接说 记住xxx 或 删除xxx 就行。 第三层:最近对话摘要 这部分比较意外。大多数人应该会觉着他们会用RAG检索所有历史对话,其实它用的是轻量摘要。 格式大概是:时间戳 + 对话标题 + 用户消息片段。 只总结你说的话,不包括助手回复。大约保留15条左右。 这给了ChatGPT跨对话的连续感,但不需要拉取完整历史。 传统RAG需要嵌入每条消息、做相似度搜索、拉取完整上下文,延迟和成本都高。 ChatGPT的做法是预计算轻量摘要直接注入,用精度换速度。 第四层:当前对话窗口 这是当前会话的滑动窗口,包含完整对话历史(非摘要)。 具体token限制没问出来,但确认了:基于token数而非消息数计算,超出后旧消息滚动淘汰,但记忆事实和对话摘要始终保留。 在发消息的时候,会话元数据给环境上下文,用户记忆确保回复符合你的背景偏好,对话摘要提供跨对话的兴趣图谱,当前窗口维持会话内的连贯性。 当上下文紧张时,旧消息滚出,但核心记忆始终在。 详细细节可以在这里看到:https://manthanguptaa.in/posts/chatgpt_memory/

    作者:探索AGI发布日期:2025-12-12 11:11:20

    我逆向了ChatGPT的Memory系统,发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了,昨天,有个国外的老哥逆向了一波,发现了它由4层架构构成。 没有向量数据库,没有对历史

    阅读全文
  • 文章封面

    硅谷用开源模型做闭源,阿里千问杀疯了!

    作者:探索AGI发布日期:2025-12-11 14:45:09

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~今天,彭博社爆料,Meta将在明年春季发布牛油果大模型。并且这个闭源模型,是从开源模型中蒸馏来的,其中就包含了千问模型。我们可以很清晰的看到,一个新

    阅读全文
  • 文章封面

    Anthropic复盘了Agent元年,下半场别再造Agent了。

    作者:探索AGI发布日期:2025-12-10 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~Anthropic 分享了一些最新的insight。一个暴论:别再造 Agent 了,开始造 Skills 吧。早期的时候,他们发现,不同领域的 A

    阅读全文
  • 文章封面

    智谱AutoGLM开源了,但手机Agent的真正战场才刚开始。 他们的GUI Agent,是怎么应对豆包手机被各大APP封杀的问题呢? 首先,值得说的是,他们开源的是完整解决方案,模型MIT协议,代码Apache-2.0,50+中文App适配,Phone Use 能力框架与工具链,拿来就能用。 前几天,豆包手机太火了,陆续被各种APP封杀。 说白了,大家都觉得你用AI Agent操作我的App,不安全,不合规,管你是什么大模型,先封了再说。 从技术上讲,GUI Agent和群控软件是两码事。群控是几百台手机批量执行死命令,做流量造假; GUI Agent是让大模型看屏幕,理解意图,模拟真人操作。谁会用大模型token去做群控?太贵了。 但微信不管这些。它的逻辑是:非人操作特征相似,宁可错杀,不放过。 问题来了:我花钱买的手机,我注册的账号,我有权利授权我的 电子助理 帮我操作吗? 现实中我让别人帮我回微信没问题,换成AI就不行了? 操作系统本应是App的宿主,但超级App已经长成了国中之国,大到可以反过来要挟OS。 为什么Agent非要走模拟点击这条路?因为App的大门紧锁。 各家都把用户圈在自己的围墙花园里,美团不会开放API让你比价饿了么,淘宝不会让你跨平台一键下单。这等于把流量分发权拱手让人。 所以OS级的Agent想要跨应用服务用户,无路可走。 那AutoGLM怎么做的呢? 云手机+主动放弃微信等敏感App。数据隔离,先把能做的做好。 这并没有解决根本问题,现阶段可能根本无解。 可能要等到行业被逼出一个标准,等到A2A协议落地。未来也许是这样,各家App内置Sub-Agent接口,OS Agent当总指挥,App Agent当执行者,走标准协议互通。 不需要模拟点击,安全可控合规。 苹果其实早就搞了App Intents想干这事,但Siri太拉,生态跟着荒废了。 回到AutoGLM开源这件事。 智谱说,这件事只在一家公司做是不够的。Agent的爆发,需要所有人一起参与。更重要的是,隐私和控制权要留在使用方这边。通过开源和私有化部署,企业可以在自己的环境里掌控一切。 这才是开源的意义:技术向生态开放,数据留在用户手里。 github.com/zai-org/Open-AutoGLM

    作者:探索AGI发布日期:2025-12-09 11:50:00

    智谱AutoGLM开源了,但手机Agent的真正战场才刚开始。 他们的GUI Agent,是怎么应对豆包手机被各大APP封杀的问题呢? 首先,值得说的是,他们开源的是完整解决方案,模型MIT协议,

    阅读全文
  • 文章封面

    苹果年度APP出炉。 整体AI味儿有点浓。 不是为了AI而AI,用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo,一个给ADHD人群用的AI规划工具。 【ADHD: 注意缺陷多动障碍,是一种神经发展障碍。主要表现为注意力无法持久集中、过度活跃和情绪易冲动等。】 比如给他说,收拾房间,它把任务拆成一步步的小目标,还预估每步要多久。 给他说 我要准备面试,它帮你列出具体要做的事,按优先级排好。 区别于各种通用Agent,它不是帮我们做事情,是帮这类人群,不知道从哪开始 变成 下一步做什么。对ADHD来说,这一步非常的难。 付费用户50万,年收入1390万美元。 iPad年度应用Detail,AI视频编辑工具。核心功能是一键生成短视频片段,AI自动找到视频里最有趣的部分,帮你剪好。 苹果的评价是 民主化了视频制作流程。说人话就是:让不会剪辑的人也能做出能看的内容,非常的迎合短视频、直播时代。 Mac年度应用Essayist,处理论文格式的,适合学生群体,自动完成论文排版、图标、共识、脚注等等。 Apple Watch年度应用Strava,老牌APP了,这次主打的智能是,可以把心率、配速、海报这些整理出人话。 告诉你这次跑得怎么样,哪里可以改进。分析音乐和天气对你运动表现的影响等等。 Strava去年营收3.38亿美元,月活快5000万。AI只是锦上添花,但这个花加得很有意思。 文化影响力奖给了Be My Eyes,给视障人群用的应用。 拍张照,AI告诉你照片里是什么。能识别物体、读标签、描述场景。配合全球几百万志愿者,AI解决不了的问题,真人来帮忙。 中国区入围的有一个拿了苹果设计奖。叫CapWords,对着东西拍照,AI识别后生成词汇贴纸,所见即所学。 支持英语、日语、法语、粤语等。 可以很明显的看到一点,到今天,ChatGPT,3岁了。 AI已经不再是产品卖点,赚钱最多的,往往不是AI功能最炫的,而是把AI用得最 刚好的。

    作者:探索AGI发布日期:2025-12-08 11:50:00

    苹果年度APP出炉。 整体AI味儿有点浓。 不是为了AI而AI,用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo,一个给ADHD人群用的AI规划工具。 【ADHD

    阅读全文
  • 文章封面

    年终总结,通用Agent在企业落地,为什么这么难?到底要怎么做?

    作者:探索AGI发布日期:2025-12-05 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~之前咱们分享过,Gartner预测,到2027年底,超过40%的Agentic AI项目将被取消。为什么很多在Demo阶段表现很惊艳,到企业实践里就

    阅读全文
  • 文章封面

    AI Agent在国内,可能真的不存在。 IT之家今天发了个有意思的资讯,豆包和中兴搞了个联名工程机,结果刚登微信,喜提账号冻结提醒。 https://www.ithome.com/0/902/076.htm @布鲁卡 介绍了这个事情的来龙去脉: 任何试图通过自然语言 模拟点击方式操作微信的,都是高压线。微信在这件事情上非常抵触,所以各厂商即便有这个能力,也都下掉了。 现在的情况是,豆包手机助手涉及微信的操作直接显示 任务失败,明确告诉你不支持微信操作。 也就是说,你想让AI帮你发条消息,那是不可能的。 唯一解法?张小龙自己做? 一个很现实的问题:海外的AI Agent玩的风生水起,各种浏览器自动化、手机操控、全流程代理,在国内呢?可能在很多应用里边,直接走不通。 安全和便利的博弈,在国内,安全永远赢。AI悄悄给你卡里的几块钱转走,是最容易被扯出来的借口。 但更深层的问题是,应用不可能开放权限让Agent来操作。不然很容易会被干成一个后台程序,这和被干死了没区别。 尤其像微信这种,承载了太多东西,通讯、支付、小程序、社交,它不可能甘心变成别人的基础设施。 所以说,移动端Agent在国内的落地,可能真的需要换一种思路。要么等wx自己做,要么换个App?但这基本不可能。 天下苦wx久矣,但也只能继续苦着。

    作者:探索AGI发布日期:2025-12-04 11:50:00

    AI Agent在国内,可能真的不存在。 IT之家今天发了个有意思的资讯,豆包和中兴搞了个联名工程机,结果刚登微信,喜提账号冻结提醒。 https://www.ithome.com/0/902/0

    阅读全文
  • 文章封面

    Anthropic收购了Bun,Agent 时代,基础设施才是真正的护城河 Bun是一个零收入,720万月下载量,还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执行文件。Bun崩了,Claude Code就崩了。 这个事情还有个很有意思的地方, Bun 的创始人Jarred Sumner说, Bun 代码库里合并PR最多的用户,是一个 Claude Code 的 bot。 这个bot能自己修 bug、开 PR、写测试、回复 review 评论,完成整个开发流程。Jarred 说这大概领先行业几个月。 当大部分代码由 Agent 生成时,基础设施层会变得比以往任何时候都重要。 原因很简单: Agent 写代码比人快,一分钟可能跑几十个版本的构建-测试-部署循环,运行时不快就是瓶颈。 Agent 的分发需要极致简洁,Bun 的单文件可执行文件正好解决这个问题。编译成一个二进制,用户不用装 Bun 也不用装 Node,直接跑。 上下文窗口寸土寸金,运行环境越可预测、启动越快、输出越干净,Agent 的推理质量就越高。 Claude Code、FactoryAI、OpenCode 这些 AI 工具都在用 Bun 构建。 为什么现在不流行云托管了呢? 以前投资人问怎么赚钱,标准答案是以后做云托管。 Bun选了第三条路:成为 AI 基础设施的一部分,而不是独立商业产品。 这其实是一种新的开源商业模式。直接让大厂买单。用户也不用担心这项目会不会黄。 Anthropic+Bun 的组合,有点像 Google Chrome + V8、Safari + JavaScriptCore 的关系,但会保持更大的独立性。 最后 Bun 开源不变、MIT 许可不变、原团队继续维护。对普通用户来说,该用继续用,甚至可以更放心用了。 这些都预示着。下一波aI的战场,正从模型下沉到基础设施。

    作者:探索AGI发布日期:2025-12-03 11:51:00

    Anthropic收购了Bun,Agent 时代,基础设施才是真正的护城河 Bun是一个零收入,720万月下载量,还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执

    阅读全文
  • 文章封面

    DeepSeek开源,Agent能力大升级,剧透2026!

    作者:探索AGI发布日期:2025-12-02 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~DeepSeek 昨晚更新并开源了 V3.2 正式版,同时带来了长思考增强版 V3.2-Speciale。这次更新最大的亮点在于 Agent 能力的

    阅读全文
  • 文章封面

    为什么所有Memory项目都说自己是SOTA? 如何让AI记住过去,从而理解未来? Memory System 似乎变成了一个新的爆发赛道。 最近有很多项目在横评这些系统,今天简单点评梳理一下。 Mem0是 2024年火起来的一个项目。 它的方案也很简单,自动抽取、自动存储,几行代码就能让AI 变得有记忆。但问题也明显:过度抽取、容易漂移、长期一致性差。 它的核心贡献在于,让世界认识了AI记忆,但不是下一代Agent的基础。 Zep是第一个把记忆做成服务的系统,时序图谱、Docker部署、权限体系,企业级可用。而且在很多横评里边,比官方的数据更好,说明整体在持续迭代。 它的定位是 AI的数据层,稳健,但不是大脑层。 MemOS走的是另一条路,记忆本身也应该是可学习的结构。张量化记忆单元,很有研究气质,但系统较重,不适合轻量场景。 MemU把记忆组织成树,层级分类、动态扩展。在用户画像这类结构化任务上表现不错,但开放域推理不足。 有个问题是外部横评分数远低于官方报告,差距是这几家里最大的。 EverMemOS是最晚亮相的,但技术体系最完整。仿生四层架构,按主题而非token切分记忆,快速召回+深度推理。开源版分数92.3%,是唯一在综合得分上超越LLM Full-context的记忆系统。 一句话总结一下:EverMemOS是集大成者,Zep是企业级稳定标杆,MemOS在探索前沿,MemU专注结构化,Mem0完成了早期概念验证。 如果说模型代表推理,工具代表行动,那么记忆就代表身份、历史、偏好。没有记忆的AI,只能像失忆症患者一样依赖上下文。 这场关于记忆的竞争才刚刚开始。 可以在下面地址看到各种评测: https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation https://huggingface.co/datasets/MemTensor/MemOS_eval_result

    作者:探索AGI发布日期:2025-12-01 11:53:38

    为什么所有Memory项目都说自己是SOTA? 如何让AI记住过去,从而理解未来? Memory System 似乎变成了一个新的爆发赛道。 最近有很多项目在横评这些系统,今天简单点评梳理一下。

    阅读全文
  • 文章封面

    Agent爆发!一文搞懂智能体所有本质问题

    作者:探索AGI发布日期:2025-11-28 11:50:00

    前几天刷到条有意思的视频,“AI智能体在2025年注定失败?”看完才发现,还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也

    阅读全文
  • 文章封面

    Anthropic又承认了,跨上下文窗口工作,Agent还是个弟弟。 Agent做复杂任务,一个对话窗口搞不定怎么办? Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势,第一种是贪心,想一口气把所有功能全写完,结果上下文爆了,代码写一半人没了。下一个Agent接手的时候,看着一堆残缺代码,只能靠猜。 第二种更离谱,Agent看了看项目,发现已经有一些功能了,直接宣布大功告成,收工。 解决方案很简单,模仿人的工作方式。 一个两阶段系统: 第一阶段是初始化Agent,只干一件事,把环境搭好。写个init.sh脚本、建个进度文件claude-progress.txt,做第一次git commit。 相当于做一个项目启动会,把需求拆成200多个小功能点,全部标记为 未完成。 第二阶段是干活Agent,每次只做一件事。每个Agent上来先读进度文件和git log,搞清楚现在做到哪了,然后挑一个没做的功能开干。 干完了必须写commit、更新进度文件,保证下一个Agent接手时不抓瞎。 核心在于,让每个Agent都能快速理解项目状态。 有一个细节很有意思。他们发现Agent特别喜欢 自我感觉良好,代码写完就觉得完事了,根本不测。 解决办法是给Agent配个Puppeteer,强制它像真人一样去浏览器里点点点,跑端到端测试。这一招下去,bug发现率直接上来了。 但也有翻车的时候,比如浏览器的alert弹窗,Puppeteer抓不到,Agent就看不见,这些功能就容易出bug。 博客地址:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents 另外,其实3天前,他们也发了一篇关于ToolUse优化的文章:https://www.anthropic.com/engineering/advanced-tool-use 3板斧 Tool Search Tool, 让模型可以按需搜索。 Programmatic Tool Calling, 让模型从调用api,变成自己写代码处理数据。 Tool Use Examples, 多给一些few shot的工具使用例子。 A社的每一篇博客,其实都在试图把Agent从玄学变成工程学~

    作者:探索AGI发布日期:2025-11-27 11:50:00

    Anthropic又承认了,跨上下文窗口工作,Agent还是个弟弟。 Agent做复杂任务,一个对话窗口搞不定怎么办? Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势,第一种是贪

    阅读全文
  • 文章封面

    Ilya 最新访谈,预训练时代终结后,AI行业来到了哪里?

    作者:探索AGI发布日期:2025-11-26 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~llya Sutskever 终于露面了,而且是一场 90 多分钟的深度访谈!达瓦卡什太牛逼了,今年采访到了Rich Sutton,Karpathy

    阅读全文
  • 文章封面

    一句话做电商套图,提效100倍,这可能是今年最成功的电商垂域Agent了!

    作者:探索AGI发布日期:2025-11-25 12:00:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这几天 Nano Banana Pro太刷屏了。模型即产品已经成了大多数人的共识。但是,其实想让模型做好一个垂域场景,SOTA模型其实只是一个半成品

    阅读全文
  • 文章封面

    Game Over,NotebookLM最近推出的Slide Decks,彻底杀疯了

    作者:探索AGI发布日期:2025-11-24 11:50:00

    阅读全文
  • 文章封面

    4天100万下载,这个移动端Agent直接给谷歌偷家了。

    作者:探索AGI发布日期:2025-11-22 13:42:51

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这几天,蚂蚁的灵光真是杀疯了,作为行业首个全模态助手。用了灵光一现,这个名字,真的很妙,离普通人真的非常的近。市场对这个新概念非常买单,上线24小时

    阅读全文
  • 文章封面

    Nano Banana Pro 好玩。 这几天,奥特曼的日子可能不太好过,专业角度客观分析一下Gemini3 和 Nano Banana Pro。 先说 Nano Banana Pro 把,生成的图好看是基本,分辨率4K。 但这玩意他是一个披着画画的推理模型。 画之前,会先思考。 比如说物理模拟,光从哪来,影子怎么投,人物动作。 已经不是过去靠概率拼像素的时代了,先预演,在把照片拍给你。 所以我们可以看到了,各种,完美处理多格漫画, 非常的连续,把气泡里的英文翻译成中文,还能完美地填回去。 还有一个被所有人低估的一个功能, Grounding with Search。 说白了,就是可以先搜索,把实时的数据,放在预演里边。 谷歌本身掌握着全球最大的实时知识库(Search),又有最强多模态模型,还有硬件,这似乎有点恐怖,3季度巴菲特都开始买谷歌了。 从Gemini3 ,来看 Scaling law, 为什么这玩意又行了? 从Gemini开发大佬的twitter说的,就是暴力 Scaling Up。Scaling Law 根本没失效,失效的只是你们数据不够了。 马斯克在搞grok wiki,就是因为xAI的数据太脏了,洗不出来。而Google有全球最庞大的高质量私有数据。 Gemini 3 Pro 在预训练和后训练阶段都拉满了 Scaling。虽然感觉复杂代码上似乎还比不上Anthropic,通用认知,世界模型,已经利用数据优势构筑了护城河。 Unseen, Unknown. 最后说个实用的。Nano Banana Pro 的 Prompt 逻辑也变了。 Google 的产品经理 Bea Alessio 给了一套公式: 主体 + 构图 + 动作 + 场景 + 风格 + 编辑指令 它允许你像剪辑视频一样,输入14张图,保持角色一致,然后随意调整光影、角度。 Google 在告诉世界:通往 AGI 的路,必须是原生多模态。 一个能看、能听、能查搜索、还能逻辑自洽的模型,才配叫 AGI。 这才是 AI Native 该有的样子。

    作者:探索AGI发布日期:2025-11-21 11:52:18

    Nano Banana Pro 好玩。 这几天,奥特曼的日子可能不太好过,专业角度客观分析一下Gemini3 和 Nano Banana Pro。 先说 Nano Banana Pro 把,生成的

    阅读全文
  • 文章封面

    Agent最全教程!317页pdf!

    作者:探索AGI发布日期:2025-11-20 11:50:00

    前几天刷到条有意思的视频,“AI智能体在2025年注定失败?”看完才发现,还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也

    阅读全文
  • 文章封面

    好消息,基本上AI Coding工具都上了Gemini 3 PRO,坏消息,都不便宜

    作者:探索AGI发布日期:2025-11-19 10:33:55

    阅读全文
  • 文章封面

    似乎Agent有了一个新范式? 上半年,Manus拉起了一个Todolist的风潮。 但是上周我测试的K2T ,包括这2天有点热闹的开源模型MiroThinker v1.0,他们都有一个新的共性。 长程思考能力。 模型自身,可以完成几十轮甚至几百轮的连续思考,每轮都可以多次工具调用,然后反复验证、修正、再尝试。 K2T的Agent分不多说了,但是一个不知名的基于qwen2.5后训练的小模型,可以在GAIA上刷到81.9的分。 这个能力是不是会激发新的交互范式? 一个新的公式是: 能 ∝ 模型与环境的交互深度 × 反思频率。 意思是,不是模型越大越好,而是模型与环境互动越深入、反思越频繁,智能就越强。 当然长程思考能力,对token消耗会比较高。同时对上下文管理的要求极高,常见的256K可能很长,但是可能很快就被撑爆了。 所以另一个很关键的一点是,模型要学会判断什么时候该深入,什么时候该快速收敛。 这个开源模型地址在:https://github.com/MiroMindAI/MiroThinker/blob/main/README.md 技术报告还有点意思,可以看一看。 不知道实际效果怎么样,我测试了几个检索的,比较容易~ 从L1到L2, 模型学会了思考。这种新的范式是不是已经让我们看到了L3的影子?

    作者:探索AGI发布日期:2025-11-18 11:50:57

    似乎Agent有了一个新范式? 上半年,Manus拉起了一个Todolist的风潮。 但是上周我测试的K2T ,包括这2天有点热闹的开源模型MiroThinker v1.0,他们都有一个新的共性。

    阅读全文
  • 文章封面

    Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点上: 第一,一个定时捕捉的视频帧,720P,每200ms捕捉一次。字节的Lumine是基于Qwen2-VL-7B-Base进一步训练的。 第二点,混合推理。就是可以选择是不是要思考,简单场景,直接输出动作就好了,比如移动, 重复的操作。复杂场景,先进行思考,比如出现了新的目标。 第三,就是让模型所有的输出都是,鼠标键盘的序列,直接可执行验证。 训练分三个阶段:基础动作→指令跟随→决策推理。 从Lumine-Base到Lumine-Thinking,能力是阶梯式上升的。 Base版本能拾取、开宝箱、爬墙,但没有目标导向。 Instruct版本可以完成指令,短任务(10秒至数分钟任务)成功率80%+。在璃月这种没训练过的场景也能自主导航。 Thinking版本,使用了使用15小时的人工标注推理数据。让模型学会自主规划、反思与修正的能力,测试下来,以蒙德主线为测试场景,第一章56分钟搞定,GPT-5要112分钟。 第二、三章4.7小时,完成率98.2%,Gemini只完成了65%还用了8小时。 跨游戏测试里,《鸣潮》100%完成率,《崩铁》92.3%,《黑悟空》85.7%。 所以整体还是靠模型,逻辑应该都是,先在3D游戏里训练通用Agent,因为相对封闭的游戏环境里,规则清晰、反馈明确。 然后实际目标是具身智能?难得就是真实世界没有血条和小地图。 论文地址:https://arxiv.org/abs/2511.08892

    作者:探索AGI发布日期:2025-11-17 11:50:00

    Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点

    阅读全文
  • 文章封面

    OpenAI发了一个怎么做自进化Agent的教程

    作者:探索AGI发布日期:2025-11-14 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~前几天,openai发了一个关于 self-evolve 自进化 智能体怎么做的博客。核心思路其实很简单,分三步,代码也开源了。Agent跑任务,输

    阅读全文
  • 文章封面

    Google、OpenAI 在 谁更像人 上边杠上了 GPT-5.1 发布, Google 马上给Gemini Live 整了波大更新。 他们都在做更拟人。 OpenAI 加了个全新的对话风格设置系统。可以直接在设置里调,语气、回复长度、信息结构、表情符号频率 这些东西。 新模型的洞察力非常强,只要用大脑里边第一时间想到的词发问,它就能领会。即使有模糊不清的地方,也会主动和你确认。 但如果刻意加一堆限定和描述,反而回答可能产生不合适的偏向。只能说大模型已经对人类的思维模式越来越了解了。 目前社区实测下来的几点共识: 1. 创造性写作质量明显提升 2. 推理和复杂任务链条更稳定 3. 在部分benchmark、coding任务上表现接近或超出现有顶级模型。 尤其是写作这块,GPT‑5.1级别模型的爽感,非常直观。 如果你本来就靠内容、产品文案、方案输出吃饭,它会直接改变你的工作方式。 可能好多基于claude code做写作工作流的博主们(或者其他方面),搞了很多。。。不如模型升级。。。 一句话的优化结果,比你折腾一通高得多。 不知道gemini3.0pro能一较高下吗。不过gemini3应该更强的还是coding上的能力 其他方面仍待进一步实测。 Google今天也给Gemini Live推出了重磅更新。 可以调节语速、可以成为你的外教,模拟现实场景,即时互动,提问,纠正。 还可以模拟面试,排练演讲。 支持沉浸式讲故事,加上了情绪调节,人物口音,比如牛仔口音,伦敦腔等等。

    作者:探索AGI发布日期:2025-11-13 11:50:00

    Google、OpenAI 在 谁更像人 上边杠上了 GPT-5.1 发布, Google 马上给Gemini Live 整了波大更新。 他们都在做更拟人。 OpenAI 加了个全新的对话风格设

    阅读全文
  • 文章封面

    AI生的图能分图层,Agent控制能力进入下半场

    作者:探索AGI发布日期:2025-11-12 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近Lovart上线了个功能,名字朴实无华,Layered Image Editing ,中文叫编辑元素?我们很少分享多模态相关的内容,但是这个功能

    阅读全文
  • 文章封面

    Perplexity 分享了他们的技术架构。 团队38个人,4个月干出了月活4亿。 博客在这,内容有点长,而且很多图: https://blog.bytebytego.com/p/how-perplexity-built-an-ai-google 但是核心就干了三件事:搜索 + AI生成 + 给来源。 听起来很简单,工程设计才是壁垒。 他们用Vespa.ai建了个巨大的索引,2000亿个URL,400PB的热存储,几万个CPU在跑,而且不是静态索引,每秒处理几万次更新,保证信息永远是最新的。 混合检索,向量+BM25+精排,同类方案P95延迟是400-800ms,Perplexity压到了200ms以内。Vespa把数据、索引、计算逻辑全放在同一个节点上,避免网络IO,分布式查询并行跑。 Perplexity用的不是自己的模型,而是混着用。简单问题用自研的便宜模型Sonar,复杂问题才调GPT-4或Claude。 常规操作,既快又省钱,核心是用最小的模型搞定最好的体验。 Sonar模型也不是从头训练的,拿开源模型微调,比如之前他们微调deepseek,说什么去掉xxx,在抱抱脸上一堆人喷。 训练数据都来自用户交互,微调的目的是提升3个能力: 精准摘要 + 正确标注引用 + 严格基于检索内容回答。 推理部分用了自研的ROSE引擎,跑在AWS的H100 GPU上。架构上部分用Rust重写,不是纯python。推理解码算法支持投机解码和MTP。 还有个黑科技,AI自改进的内容解析, 因为网页结构千奇百怪,所以他们尝试用模型动态去生成解析规则。 系统会评估当前规则的完整性和质量,然后自己提出改进方案、验证、部署。这套循环可以让系统持续进化,把非结构化网页最好的解析切分。 没啥抄的,因为perplexity的护城河不是某个模型,是端到端的系统工程能力。从检索、排序、生成到推理,每一层都有深度优化。

    作者:探索AGI发布日期:2025-11-11 11:50:00

    Perplexity 分享了他们的技术架构。 团队38个人,4个月干出了月活4亿。 博客在这,内容有点长,而且很多图: https://blog.bytebytego.com/p/how-perp

    阅读全文
  • 文章封面

    谷歌Nano Banana 2 来了,图片AGI提前到来?

    作者:探索AGI发布日期:2025-11-10 11:50:09

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~伴随着 Gemini 3、GPT 5.1 的各种小道消息散播半个月。Nano Banana 2,2K原生输出,竟然要提前来了,春节前大玩具有了。今年

    阅读全文
  • 文章封面

    测了两天,这个开源模型终于让我看到Agent的样子了

    作者:探索AGI发布日期:2025-11-08 12:23:31

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~年初 Kimi K1.5 发布的时候,被 DeepSeek R1 狙击。在闭关半年后,掏出来了惊艳全球的Kimi K2。在经过一个季度,K2 推理版

    阅读全文
  • 文章封面

    Anthropic也意识到MCP Server太干扰上下文了。 一加载就是一堆tools,所以他们推出了Code execution with MCP。 但凡你做过Agent开发,用了大量MCP工具,就会知道MCP工具多了后最大的问题就是上下文占用太多,不仅导致成本高,还会影响推理和生成质量。 另外一个问题就是MCP工具返回的中间结果也会挤占大量的上下文空间。 看这文章的时候忍不住想到了Manus,他们确实在上下文工程方面探索的很深入了,里面的工程技巧和他们以前分享过的很类似。 Anthropic的核心思路很简单,既然大模型写代码这么6,为什么不让它写代码来调用工具? 他们的实现方式是,把所有MCP工具生成一个文件树结构。需要什么工具,Agent自己去文件系统里找,读取定义,然后写代码调用。 比如这是文中的一个目录示例: servers ├── google-drive │ ├── getDocument.ts │ ├── ... (other tools) │ └── index.ts ├── salesforce │ ├── updateRecord.ts │ ├── ... (other tools) │ └── index.ts └── ... (other servers) servers ├── google-drive │ ├── getDocument.ts │ ├── ... (其他工具) │ └── index.ts ├── salesforce │ ├── updateRecord.ts │ ├── ... (其他工具) │ └── index.ts └── ... (其他服务器) 找不到现成的工具怎么办?直接现写一个,写完了还可以保存起来下次继续用。 数据是在代码中过滤,比如,拿到1万行的表,代码里边筛选完,把需要的信息给模型,模型就不用看1万行了。 复杂的逻辑可以一次写代码搞定,不用来来回回的在MCP 和 server中来回调用了。 总的来说,MCP解决了连接的问题,代码执行解决了效率的问题。 Agent的未来,真的是一半靠模型,另一半靠工程。

    作者:探索AGI发布日期:2025-11-07 11:50:00

    Anthropic也意识到MCP Server太干扰上下文了。 一加载就是一堆tools,所以他们推出了Code execution with MCP。 但凡你做过Agent开发,用了大量MCP工

    阅读全文
  • 文章封面

    办公小浣熊,终于有Agent可以帮你打工了!

    作者:探索AGI发布日期:2025-11-06 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近,朋友推荐了一款国产宝藏产品,商汤办公小浣熊。官网地址:www.xiaohuanxiong.com/?utm_source=tsagi说是具有国

    阅读全文
  • 文章封面

    Agent项目最头疼的不是技术,这可能是近期最棒的Agent调研。

    作者:探索AGI发布日期:2025-11-05 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~昨天,MMC出来一篇质量超级高的博客,他们深入访谈了30多家正在做AI Agent的创业公司创始人和 40 多位企业里的实际用户,写了这篇 《Sta

    阅读全文
下一页