全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    25年用智能体发顶会可太容易了!

    作者:探索AGI发布日期:2025-12-20 11:50:00

    看到网友说:“AI智能体在2025年注定失败?”好像还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也仅24%,长对话的To

    阅读全文
  • 文章封面

    价值十万,数字生命卡兹克的内容方法论,被AI化了?

    作者:探索AGI发布日期:2025-12-19 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~今年3月份的时候,晚点对数字生命卡兹克做了一期访谈。卡神说自己做内容,80%的时间不是在写,是在找选题。为了提高效率,他开发了一套自动化系统,每天抓

    阅读全文
  • 文章封面

    Langchain年终总结:调研1000人后,Agent最大的敌人终于浮出水面了

    作者:探索AGI发布日期:2025-12-18 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~元旦了,Langchain的年末总结来了,调研了1000多位一线人士。结论很简单:Agent已经过了炒概念的阶段,大家在意的不是要不要做,而是怎么做

    阅读全文
  • 文章封面

    国产Agent第一股要来了?但官网都打不开,什么妖魔鬼怪?

    作者:探索AGI发布日期:2025-12-17 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~早上起来刷到一个新闻,瞬间懵了~国内最大AI数字员工公司冲刺IPO!年入2.4亿,要做企业Agent第一股。数字员工这个词,在国内特别的火,甚至我之

    阅读全文
  • 文章封面

    n8n、扣子太难用了,Vibe Workflow 才是更大众的解

    作者:探索AGI发布日期:2025-12-16 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~有个很有意思的AI产品,朱啸虎投了,种子轮数百万美金,高瓴也跟了。上周似乎投了一大波流?很多自媒体都在发体验,我上半年就玩过了,体验还不错,还是开源

    阅读全文
  • 文章封面

    从大模型到多模态,图文混排Agent彻底起飞~

    作者:探索AGI发布日期:2025-12-15 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~上周是智谱的多模态开源周,从GLM 4.6v到Autoglm...看到官方的博客,第一眼比较吸引我的,不是模型本身,是他们给的一个使用场景 - 图文

    阅读全文
  • 文章封面

    我逆向了ChatGPT的Memory系统,发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了,昨天,有个国外的老哥逆向了一波,发现了它由4层架构构成。 没有向量数据库,没有对历史对话做RAG检索。出乎意外的简单~ ChatGPT的上下文结构。一共由6部分构成。 前2部分是一些高级指令,如system prompt,instrucions。接下来4部分是Memory的核心。四层架构:会话元数据、长期用户记忆、最近对话摘要、当前对话窗口。 最后一部分是最后一条消息。 第一层:会话元数据 每次开启会话时,系统会注入一次性的环境信息,包括设备类型、浏览器、大致位置、订阅等级、使用习惯等。 包括你用深色模式还是浅色模式,屏幕尺寸多大。 这些信息帮助模型适配你的环境,但会话结束就没了,不会永久存储。 第二层:用户记忆 这是真正的长期记忆。ChatGPT有专门的工具来存储和删除关于你的稳定事实。 在我这里,模型存了33条,包括名字、年龄、职业目标、当前项目、学习方向等。 但这些不是猜测的,只有两种情况会存储:你明确说 记住这个 ,或者模型检测到符合条件的事实且你没反对。 想增删?直接说 记住xxx 或 删除xxx 就行。 第三层:最近对话摘要 这部分比较意外。大多数人应该会觉着他们会用RAG检索所有历史对话,其实它用的是轻量摘要。 格式大概是:时间戳 + 对话标题 + 用户消息片段。 只总结你说的话,不包括助手回复。大约保留15条左右。 这给了ChatGPT跨对话的连续感,但不需要拉取完整历史。 传统RAG需要嵌入每条消息、做相似度搜索、拉取完整上下文,延迟和成本都高。 ChatGPT的做法是预计算轻量摘要直接注入,用精度换速度。 第四层:当前对话窗口 这是当前会话的滑动窗口,包含完整对话历史(非摘要)。 具体token限制没问出来,但确认了:基于token数而非消息数计算,超出后旧消息滚动淘汰,但记忆事实和对话摘要始终保留。 在发消息的时候,会话元数据给环境上下文,用户记忆确保回复符合你的背景偏好,对话摘要提供跨对话的兴趣图谱,当前窗口维持会话内的连贯性。 当上下文紧张时,旧消息滚出,但核心记忆始终在。 详细细节可以在这里看到:https://manthanguptaa.in/posts/chatgpt_memory/

    作者:探索AGI发布日期:2025-12-12 11:11:20

    我逆向了ChatGPT的Memory系统,发现它比想象中简单太多了 ChatGPT的Memory多好用不多说了,昨天,有个国外的老哥逆向了一波,发现了它由4层架构构成。 没有向量数据库,没有对历史

    阅读全文
  • 文章封面

    硅谷用开源模型做闭源,阿里千问杀疯了!

    作者:探索AGI发布日期:2025-12-11 14:45:09

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~今天,彭博社爆料,Meta将在明年春季发布牛油果大模型。并且这个闭源模型,是从开源模型中蒸馏来的,其中就包含了千问模型。我们可以很清晰的看到,一个新

    阅读全文
  • 文章封面

    Anthropic复盘了Agent元年,下半场别再造Agent了。

    作者:探索AGI发布日期:2025-12-10 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~Anthropic 分享了一些最新的insight。一个暴论:别再造 Agent 了,开始造 Skills 吧。早期的时候,他们发现,不同领域的 A

    阅读全文
  • 文章封面

    智谱AutoGLM开源了,但手机Agent的真正战场才刚开始。 他们的GUI Agent,是怎么应对豆包手机被各大APP封杀的问题呢? 首先,值得说的是,他们开源的是完整解决方案,模型MIT协议,代码Apache-2.0,50+中文App适配,Phone Use 能力框架与工具链,拿来就能用。 前几天,豆包手机太火了,陆续被各种APP封杀。 说白了,大家都觉得你用AI Agent操作我的App,不安全,不合规,管你是什么大模型,先封了再说。 从技术上讲,GUI Agent和群控软件是两码事。群控是几百台手机批量执行死命令,做流量造假; GUI Agent是让大模型看屏幕,理解意图,模拟真人操作。谁会用大模型token去做群控?太贵了。 但微信不管这些。它的逻辑是:非人操作特征相似,宁可错杀,不放过。 问题来了:我花钱买的手机,我注册的账号,我有权利授权我的 电子助理 帮我操作吗? 现实中我让别人帮我回微信没问题,换成AI就不行了? 操作系统本应是App的宿主,但超级App已经长成了国中之国,大到可以反过来要挟OS。 为什么Agent非要走模拟点击这条路?因为App的大门紧锁。 各家都把用户圈在自己的围墙花园里,美团不会开放API让你比价饿了么,淘宝不会让你跨平台一键下单。这等于把流量分发权拱手让人。 所以OS级的Agent想要跨应用服务用户,无路可走。 那AutoGLM怎么做的呢? 云手机+主动放弃微信等敏感App。数据隔离,先把能做的做好。 这并没有解决根本问题,现阶段可能根本无解。 可能要等到行业被逼出一个标准,等到A2A协议落地。未来也许是这样,各家App内置Sub-Agent接口,OS Agent当总指挥,App Agent当执行者,走标准协议互通。 不需要模拟点击,安全可控合规。 苹果其实早就搞了App Intents想干这事,但Siri太拉,生态跟着荒废了。 回到AutoGLM开源这件事。 智谱说,这件事只在一家公司做是不够的。Agent的爆发,需要所有人一起参与。更重要的是,隐私和控制权要留在使用方这边。通过开源和私有化部署,企业可以在自己的环境里掌控一切。 这才是开源的意义:技术向生态开放,数据留在用户手里。 github.com/zai-org/Open-AutoGLM

    作者:探索AGI发布日期:2025-12-09 11:50:00

    智谱AutoGLM开源了,但手机Agent的真正战场才刚开始。 他们的GUI Agent,是怎么应对豆包手机被各大APP封杀的问题呢? 首先,值得说的是,他们开源的是完整解决方案,模型MIT协议,

    阅读全文
  • 文章封面

    苹果年度APP出炉。 整体AI味儿有点浓。 不是为了AI而AI,用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo,一个给ADHD人群用的AI规划工具。 【ADHD: 注意缺陷多动障碍,是一种神经发展障碍。主要表现为注意力无法持久集中、过度活跃和情绪易冲动等。】 比如给他说,收拾房间,它把任务拆成一步步的小目标,还预估每步要多久。 给他说 我要准备面试,它帮你列出具体要做的事,按优先级排好。 区别于各种通用Agent,它不是帮我们做事情,是帮这类人群,不知道从哪开始 变成 下一步做什么。对ADHD来说,这一步非常的难。 付费用户50万,年收入1390万美元。 iPad年度应用Detail,AI视频编辑工具。核心功能是一键生成短视频片段,AI自动找到视频里最有趣的部分,帮你剪好。 苹果的评价是 民主化了视频制作流程。说人话就是:让不会剪辑的人也能做出能看的内容,非常的迎合短视频、直播时代。 Mac年度应用Essayist,处理论文格式的,适合学生群体,自动完成论文排版、图标、共识、脚注等等。 Apple Watch年度应用Strava,老牌APP了,这次主打的智能是,可以把心率、配速、海报这些整理出人话。 告诉你这次跑得怎么样,哪里可以改进。分析音乐和天气对你运动表现的影响等等。 Strava去年营收3.38亿美元,月活快5000万。AI只是锦上添花,但这个花加得很有意思。 文化影响力奖给了Be My Eyes,给视障人群用的应用。 拍张照,AI告诉你照片里是什么。能识别物体、读标签、描述场景。配合全球几百万志愿者,AI解决不了的问题,真人来帮忙。 中国区入围的有一个拿了苹果设计奖。叫CapWords,对着东西拍照,AI识别后生成词汇贴纸,所见即所学。 支持英语、日语、法语、粤语等。 可以很明显的看到一点,到今天,ChatGPT,3岁了。 AI已经不再是产品卖点,赚钱最多的,往往不是AI功能最炫的,而是把AI用得最 刚好的。

    作者:探索AGI发布日期:2025-12-08 11:50:00

    苹果年度APP出炉。 整体AI味儿有点浓。 不是为了AI而AI,用AI解决了一个具体的、真实的问题成了年度标配。 iPhone年度应用Tiimo,一个给ADHD人群用的AI规划工具。 【ADHD

    阅读全文
  • 文章封面

    年终总结,通用Agent在企业落地,为什么这么难?到底要怎么做?

    作者:探索AGI发布日期:2025-12-05 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~之前咱们分享过,Gartner预测,到2027年底,超过40%的Agentic AI项目将被取消。为什么很多在Demo阶段表现很惊艳,到企业实践里就

    阅读全文
  • 文章封面

    AI Agent在国内,可能真的不存在。 IT之家今天发了个有意思的资讯,豆包和中兴搞了个联名工程机,结果刚登微信,喜提账号冻结提醒。 https://www.ithome.com/0/902/076.htm @布鲁卡 介绍了这个事情的来龙去脉: 任何试图通过自然语言 模拟点击方式操作微信的,都是高压线。微信在这件事情上非常抵触,所以各厂商即便有这个能力,也都下掉了。 现在的情况是,豆包手机助手涉及微信的操作直接显示 任务失败,明确告诉你不支持微信操作。 也就是说,你想让AI帮你发条消息,那是不可能的。 唯一解法?张小龙自己做? 一个很现实的问题:海外的AI Agent玩的风生水起,各种浏览器自动化、手机操控、全流程代理,在国内呢?可能在很多应用里边,直接走不通。 安全和便利的博弈,在国内,安全永远赢。AI悄悄给你卡里的几块钱转走,是最容易被扯出来的借口。 但更深层的问题是,应用不可能开放权限让Agent来操作。不然很容易会被干成一个后台程序,这和被干死了没区别。 尤其像微信这种,承载了太多东西,通讯、支付、小程序、社交,它不可能甘心变成别人的基础设施。 所以说,移动端Agent在国内的落地,可能真的需要换一种思路。要么等wx自己做,要么换个App?但这基本不可能。 天下苦wx久矣,但也只能继续苦着。

    作者:探索AGI发布日期:2025-12-04 11:50:00

    AI Agent在国内,可能真的不存在。 IT之家今天发了个有意思的资讯,豆包和中兴搞了个联名工程机,结果刚登微信,喜提账号冻结提醒。 https://www.ithome.com/0/902/0

    阅读全文
  • 文章封面

    Anthropic收购了Bun,Agent 时代,基础设施才是真正的护城河 Bun是一个零收入,720万月下载量,还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执行文件。Bun崩了,Claude Code就崩了。 这个事情还有个很有意思的地方, Bun 的创始人Jarred Sumner说, Bun 代码库里合并PR最多的用户,是一个 Claude Code 的 bot。 这个bot能自己修 bug、开 PR、写测试、回复 review 评论,完成整个开发流程。Jarred 说这大概领先行业几个月。 当大部分代码由 Agent 生成时,基础设施层会变得比以往任何时候都重要。 原因很简单: Agent 写代码比人快,一分钟可能跑几十个版本的构建-测试-部署循环,运行时不快就是瓶颈。 Agent 的分发需要极致简洁,Bun 的单文件可执行文件正好解决这个问题。编译成一个二进制,用户不用装 Bun 也不用装 Node,直接跑。 上下文窗口寸土寸金,运行环境越可预测、启动越快、输出越干净,Agent 的推理质量就越高。 Claude Code、FactoryAI、OpenCode 这些 AI 工具都在用 Bun 构建。 为什么现在不流行云托管了呢? 以前投资人问怎么赚钱,标准答案是以后做云托管。 Bun选了第三条路:成为 AI 基础设施的一部分,而不是独立商业产品。 这其实是一种新的开源商业模式。直接让大厂买单。用户也不用担心这项目会不会黄。 Anthropic+Bun 的组合,有点像 Google Chrome + V8、Safari + JavaScriptCore 的关系,但会保持更大的独立性。 最后 Bun 开源不变、MIT 许可不变、原团队继续维护。对普通用户来说,该用继续用,甚至可以更放心用了。 这些都预示着。下一波aI的战场,正从模型下沉到基础设施。

    作者:探索AGI发布日期:2025-12-03 11:51:00

    Anthropic收购了Bun,Agent 时代,基础设施才是真正的护城河 Bun是一个零收入,720万月下载量,还有4年runway的开源项目。 Claude Code用的就是Bun的单文件可执

    阅读全文
  • 文章封面

    DeepSeek开源,Agent能力大升级,剧透2026!

    作者:探索AGI发布日期:2025-12-02 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~DeepSeek 昨晚更新并开源了 V3.2 正式版,同时带来了长思考增强版 V3.2-Speciale。这次更新最大的亮点在于 Agent 能力的

    阅读全文
  • 文章封面

    为什么所有Memory项目都说自己是SOTA? 如何让AI记住过去,从而理解未来? Memory System 似乎变成了一个新的爆发赛道。 最近有很多项目在横评这些系统,今天简单点评梳理一下。 Mem0是 2024年火起来的一个项目。 它的方案也很简单,自动抽取、自动存储,几行代码就能让AI 变得有记忆。但问题也明显:过度抽取、容易漂移、长期一致性差。 它的核心贡献在于,让世界认识了AI记忆,但不是下一代Agent的基础。 Zep是第一个把记忆做成服务的系统,时序图谱、Docker部署、权限体系,企业级可用。而且在很多横评里边,比官方的数据更好,说明整体在持续迭代。 它的定位是 AI的数据层,稳健,但不是大脑层。 MemOS走的是另一条路,记忆本身也应该是可学习的结构。张量化记忆单元,很有研究气质,但系统较重,不适合轻量场景。 MemU把记忆组织成树,层级分类、动态扩展。在用户画像这类结构化任务上表现不错,但开放域推理不足。 有个问题是外部横评分数远低于官方报告,差距是这几家里最大的。 EverMemOS是最晚亮相的,但技术体系最完整。仿生四层架构,按主题而非token切分记忆,快速召回+深度推理。开源版分数92.3%,是唯一在综合得分上超越LLM Full-context的记忆系统。 一句话总结一下:EverMemOS是集大成者,Zep是企业级稳定标杆,MemOS在探索前沿,MemU专注结构化,Mem0完成了早期概念验证。 如果说模型代表推理,工具代表行动,那么记忆就代表身份、历史、偏好。没有记忆的AI,只能像失忆症患者一样依赖上下文。 这场关于记忆的竞争才刚刚开始。 可以在下面地址看到各种评测: https://github.com/EverMind-AI/EverMemOS/tree/main/evaluation https://huggingface.co/datasets/MemTensor/MemOS_eval_result

    作者:探索AGI发布日期:2025-12-01 11:53:38

    为什么所有Memory项目都说自己是SOTA? 如何让AI记住过去,从而理解未来? Memory System 似乎变成了一个新的爆发赛道。 最近有很多项目在横评这些系统,今天简单点评梳理一下。

    阅读全文
  • 文章封面

    Agent爆发!一文搞懂智能体所有本质问题

    作者:探索AGI发布日期:2025-11-28 11:50:00

    前几天刷到条有意思的视频,“AI智能体在2025年注定失败?”看完才发现,还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也

    阅读全文
  • 文章封面

    Anthropic又承认了,跨上下文窗口工作,Agent还是个弟弟。 Agent做复杂任务,一个对话窗口搞不定怎么办? Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势,第一种是贪心,想一口气把所有功能全写完,结果上下文爆了,代码写一半人没了。下一个Agent接手的时候,看着一堆残缺代码,只能靠猜。 第二种更离谱,Agent看了看项目,发现已经有一些功能了,直接宣布大功告成,收工。 解决方案很简单,模仿人的工作方式。 一个两阶段系统: 第一阶段是初始化Agent,只干一件事,把环境搭好。写个init.sh脚本、建个进度文件claude-progress.txt,做第一次git commit。 相当于做一个项目启动会,把需求拆成200多个小功能点,全部标记为 未完成。 第二阶段是干活Agent,每次只做一件事。每个Agent上来先读进度文件和git log,搞清楚现在做到哪了,然后挑一个没做的功能开干。 干完了必须写commit、更新进度文件,保证下一个Agent接手时不抓瞎。 核心在于,让每个Agent都能快速理解项目状态。 有一个细节很有意思。他们发现Agent特别喜欢 自我感觉良好,代码写完就觉得完事了,根本不测。 解决办法是给Agent配个Puppeteer,强制它像真人一样去浏览器里点点点,跑端到端测试。这一招下去,bug发现率直接上来了。 但也有翻车的时候,比如浏览器的alert弹窗,Puppeteer抓不到,Agent就看不见,这些功能就容易出bug。 博客地址:https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents 另外,其实3天前,他们也发了一篇关于ToolUse优化的文章:https://www.anthropic.com/engineering/advanced-tool-use 3板斧 Tool Search Tool, 让模型可以按需搜索。 Programmatic Tool Calling, 让模型从调用api,变成自己写代码处理数据。 Tool Use Examples, 多给一些few shot的工具使用例子。 A社的每一篇博客,其实都在试图把Agent从玄学变成工程学~

    作者:探索AGI发布日期:2025-11-27 11:50:00

    Anthropic又承认了,跨上下文窗口工作,Agent还是个弟弟。 Agent做复杂任务,一个对话窗口搞不定怎么办? Anthropic又提供了一个解决方案~ 目前常见有2种翻车姿势,第一种是贪

    阅读全文
  • 文章封面

    Ilya 最新访谈,预训练时代终结后,AI行业来到了哪里?

    作者:探索AGI发布日期:2025-11-26 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~llya Sutskever 终于露面了,而且是一场 90 多分钟的深度访谈!达瓦卡什太牛逼了,今年采访到了Rich Sutton,Karpathy

    阅读全文
  • 文章封面

    一句话做电商套图,提效100倍,这可能是今年最成功的电商垂域Agent了!

    作者:探索AGI发布日期:2025-11-25 12:00:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这几天 Nano Banana Pro太刷屏了。模型即产品已经成了大多数人的共识。但是,其实想让模型做好一个垂域场景,SOTA模型其实只是一个半成品

    阅读全文
  • 文章封面

    Game Over,NotebookLM最近推出的Slide Decks,彻底杀疯了

    作者:探索AGI发布日期:2025-11-24 11:50:00

    阅读全文
  • 文章封面

    4天100万下载,这个移动端Agent直接给谷歌偷家了。

    作者:探索AGI发布日期:2025-11-22 13:42:51

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~这几天,蚂蚁的灵光真是杀疯了,作为行业首个全模态助手。用了灵光一现,这个名字,真的很妙,离普通人真的非常的近。市场对这个新概念非常买单,上线24小时

    阅读全文
  • 文章封面

    Nano Banana Pro 好玩。 这几天,奥特曼的日子可能不太好过,专业角度客观分析一下Gemini3 和 Nano Banana Pro。 先说 Nano Banana Pro 把,生成的图好看是基本,分辨率4K。 但这玩意他是一个披着画画的推理模型。 画之前,会先思考。 比如说物理模拟,光从哪来,影子怎么投,人物动作。 已经不是过去靠概率拼像素的时代了,先预演,在把照片拍给你。 所以我们可以看到了,各种,完美处理多格漫画, 非常的连续,把气泡里的英文翻译成中文,还能完美地填回去。 还有一个被所有人低估的一个功能, Grounding with Search。 说白了,就是可以先搜索,把实时的数据,放在预演里边。 谷歌本身掌握着全球最大的实时知识库(Search),又有最强多模态模型,还有硬件,这似乎有点恐怖,3季度巴菲特都开始买谷歌了。 从Gemini3 ,来看 Scaling law, 为什么这玩意又行了? 从Gemini开发大佬的twitter说的,就是暴力 Scaling Up。Scaling Law 根本没失效,失效的只是你们数据不够了。 马斯克在搞grok wiki,就是因为xAI的数据太脏了,洗不出来。而Google有全球最庞大的高质量私有数据。 Gemini 3 Pro 在预训练和后训练阶段都拉满了 Scaling。虽然感觉复杂代码上似乎还比不上Anthropic,通用认知,世界模型,已经利用数据优势构筑了护城河。 Unseen, Unknown. 最后说个实用的。Nano Banana Pro 的 Prompt 逻辑也变了。 Google 的产品经理 Bea Alessio 给了一套公式: 主体 + 构图 + 动作 + 场景 + 风格 + 编辑指令 它允许你像剪辑视频一样,输入14张图,保持角色一致,然后随意调整光影、角度。 Google 在告诉世界:通往 AGI 的路,必须是原生多模态。 一个能看、能听、能查搜索、还能逻辑自洽的模型,才配叫 AGI。 这才是 AI Native 该有的样子。

    作者:探索AGI发布日期:2025-11-21 11:52:18

    Nano Banana Pro 好玩。 这几天,奥特曼的日子可能不太好过,专业角度客观分析一下Gemini3 和 Nano Banana Pro。 先说 Nano Banana Pro 把,生成的

    阅读全文
  • 文章封面

    Agent最全教程!317页pdf!

    作者:探索AGI发布日期:2025-11-20 11:50:00

    前几天刷到条有意思的视频,“AI智能体在2025年注定失败?”看完才发现,还真不是危言耸听。CMU最新研究显示,即便是Claude Sonnet 3.5这类顶尖模型驱动的智能体,在真实任务中的完成率也

    阅读全文
  • 文章封面

    好消息,基本上AI Coding工具都上了Gemini 3 PRO,坏消息,都不便宜

    作者:探索AGI发布日期:2025-11-19 10:33:55

    阅读全文
  • 文章封面

    似乎Agent有了一个新范式? 上半年,Manus拉起了一个Todolist的风潮。 但是上周我测试的K2T ,包括这2天有点热闹的开源模型MiroThinker v1.0,他们都有一个新的共性。 长程思考能力。 模型自身,可以完成几十轮甚至几百轮的连续思考,每轮都可以多次工具调用,然后反复验证、修正、再尝试。 K2T的Agent分不多说了,但是一个不知名的基于qwen2.5后训练的小模型,可以在GAIA上刷到81.9的分。 这个能力是不是会激发新的交互范式? 一个新的公式是: 能 ∝ 模型与环境的交互深度 × 反思频率。 意思是,不是模型越大越好,而是模型与环境互动越深入、反思越频繁,智能就越强。 当然长程思考能力,对token消耗会比较高。同时对上下文管理的要求极高,常见的256K可能很长,但是可能很快就被撑爆了。 所以另一个很关键的一点是,模型要学会判断什么时候该深入,什么时候该快速收敛。 这个开源模型地址在:https://github.com/MiroMindAI/MiroThinker/blob/main/README.md 技术报告还有点意思,可以看一看。 不知道实际效果怎么样,我测试了几个检索的,比较容易~ 从L1到L2, 模型学会了思考。这种新的范式是不是已经让我们看到了L3的影子?

    作者:探索AGI发布日期:2025-11-18 11:50:57

    似乎Agent有了一个新范式? 上半年,Manus拉起了一个Todolist的风潮。 但是上周我测试的K2T ,包括这2天有点热闹的开源模型MiroThinker v1.0,他们都有一个新的共性。

    阅读全文
  • 文章封面

    Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点上: 第一,一个定时捕捉的视频帧,720P,每200ms捕捉一次。字节的Lumine是基于Qwen2-VL-7B-Base进一步训练的。 第二点,混合推理。就是可以选择是不是要思考,简单场景,直接输出动作就好了,比如移动, 重复的操作。复杂场景,先进行思考,比如出现了新的目标。 第三,就是让模型所有的输出都是,鼠标键盘的序列,直接可执行验证。 训练分三个阶段:基础动作→指令跟随→决策推理。 从Lumine-Base到Lumine-Thinking,能力是阶梯式上升的。 Base版本能拾取、开宝箱、爬墙,但没有目标导向。 Instruct版本可以完成指令,短任务(10秒至数分钟任务)成功率80%+。在璃月这种没训练过的场景也能自主导航。 Thinking版本,使用了使用15小时的人工标注推理数据。让模型学会自主规划、反思与修正的能力,测试下来,以蒙德主线为测试场景,第一章56分钟搞定,GPT-5要112分钟。 第二、三章4.7小时,完成率98.2%,Gemini只完成了65%还用了8小时。 跨游戏测试里,《鸣潮》100%完成率,《崩铁》92.3%,《黑悟空》85.7%。 所以整体还是靠模型,逻辑应该都是,先在3D游戏里训练通用Agent,因为相对封闭的游戏环境里,规则清晰、反馈明确。 然后实际目标是具身智能?难得就是真实世界没有血条和小地图。 论文地址:https://arxiv.org/abs/2511.08892

    作者:探索AGI发布日期:2025-11-17 11:50:00

    Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点

    阅读全文
  • 文章封面

    OpenAI发了一个怎么做自进化Agent的教程

    作者:探索AGI发布日期:2025-11-14 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~前几天,openai发了一个关于 self-evolve 自进化 智能体怎么做的博客。核心思路其实很简单,分三步,代码也开源了。Agent跑任务,输

    阅读全文
  • 文章封面

    Google、OpenAI 在 谁更像人 上边杠上了 GPT-5.1 发布, Google 马上给Gemini Live 整了波大更新。 他们都在做更拟人。 OpenAI 加了个全新的对话风格设置系统。可以直接在设置里调,语气、回复长度、信息结构、表情符号频率 这些东西。 新模型的洞察力非常强,只要用大脑里边第一时间想到的词发问,它就能领会。即使有模糊不清的地方,也会主动和你确认。 但如果刻意加一堆限定和描述,反而回答可能产生不合适的偏向。只能说大模型已经对人类的思维模式越来越了解了。 目前社区实测下来的几点共识: 1. 创造性写作质量明显提升 2. 推理和复杂任务链条更稳定 3. 在部分benchmark、coding任务上表现接近或超出现有顶级模型。 尤其是写作这块,GPT‑5.1级别模型的爽感,非常直观。 如果你本来就靠内容、产品文案、方案输出吃饭,它会直接改变你的工作方式。 可能好多基于claude code做写作工作流的博主们(或者其他方面),搞了很多。。。不如模型升级。。。 一句话的优化结果,比你折腾一通高得多。 不知道gemini3.0pro能一较高下吗。不过gemini3应该更强的还是coding上的能力 其他方面仍待进一步实测。 Google今天也给Gemini Live推出了重磅更新。 可以调节语速、可以成为你的外教,模拟现实场景,即时互动,提问,纠正。 还可以模拟面试,排练演讲。 支持沉浸式讲故事,加上了情绪调节,人物口音,比如牛仔口音,伦敦腔等等。

    作者:探索AGI发布日期:2025-11-13 11:50:00

    Google、OpenAI 在 谁更像人 上边杠上了 GPT-5.1 发布, Google 马上给Gemini Live 整了波大更新。 他们都在做更拟人。 OpenAI 加了个全新的对话风格设

    阅读全文
  • 文章封面

    AI生的图能分图层,Agent控制能力进入下半场

    作者:探索AGI发布日期:2025-11-12 11:50:00

    嘿,大家好!这里是一个专注于前沿AI和智能体的频道~最近Lovart上线了个功能,名字朴实无华,Layered Image Editing ,中文叫编辑元素?我们很少分享多模态相关的内容,但是这个功能

    阅读全文
上一页下一页