给AI连上网,它反而变笨了?揭开大模型“滥用工具”的翻车真相
一、核心摘要论文标题:To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling(调用还是不调用:评估与优化
阅读全文一、核心摘要论文标题:To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling(调用还是不调用:评估与优化
阅读全文最近看了一段Demis Hassabis在YC的访谈,信息量很大。Demis是Google DeepMind的掌门人,去年刚拿了诺贝尔化学奖,大概是当今世界离AGI最近的几个人之一。这次访谈里,他聊了
阅读全文两天时间里通过 vs@vs-ops-2 远程操作 Mac Mini M1 的完整运维方法。环境概况项目详情目标机器Mac Mini M1 16GB (macmini9,1)OSmacOS 26.4主机
阅读全文2026-05-05 GitHub日Star榜 每日精选最值得关注的开源项目 1. FL-STUDIO-PATCHER(热度: 460) FL Studio 2026破解补丁,提供安装说明
阅读全文你有没有发现,现在 AI 圈的术语已经卷到离谱了?今天有人聊 Agentic Workflow,明天有人讲 Agent Harness,后天又冒出个 Multi-Agent Orchestrator,
阅读全文改进代码质量的最佳方式是做好两件事:在开发之前_规划解决方案_,并且_定期进行代码评审_。之前我已经演示过,如何使用 Claude Code 的 /ultraplan 命令来简化规划阶段:用 Clau
阅读全文值得关注过去一天,Anthropic 和 OpenAI 前后脚官宣了各自的合资公司,把工程师派到企业里部署 AI,提供类似 Palantir 的驻场服务这两家的合作方,都是全球最大的几家私募股权基金
阅读全文柏拉图在《斐德罗篇》里记录了一个古老的对话。埃及神话中,发明之神透特将文字献给法老塔木斯,自以为带来了一份伟大的礼物,说它能增强人的记忆、让智慧得以传播。塔木斯却拒绝了,他说,文字带来的不是真正的记忆
阅读全文Anthropic 联合创始人 Jack Clark 今天发了一篇重磅长文,声称:AI 系统自己迭代改造自己,可能就在两年后。他花了几周时间,翻遍了上百个公开数据源,最后给出了一个概率:到 2028
阅读全文AI 红队怎么做?8 家头部公司全公开了最近被问得最多的一个问题:“我们做了 5 年 Web 渗透,对 OWASP WSTG 那一套熟得很——目录、payload、scope、report 模板都有。
阅读全文编译 | 宇琪 策划 | 褚杏娟 随着 AI 浪潮的席卷,产品经理(PM)这个职业正经历着一场前所未有的“角色重定义”。现在的 PM 必须成为一名“builder”:放弃对头衔和职级的执着,跨过心理门
阅读全文新智元报道 编辑:Aeneas【新智元导读】太炸裂了!刚刚,OpenAI总裁Brockman当庭承认:自己投入0美元,持有OpenAI营利部门300亿美元股份(马斯克捐了3800万,得到的是0)
阅读全文新智元报道 编辑:元宇【新智元导读】一颗星,0.1美元,一杯6元奶茶能买8颗。ICSE顶会论文曝出GitHub上600万颗星可能是刷出来的,其中大量「热门项目」很可能是伪装成盗版软件、游戏外挂、
阅读全文新智元报道 编辑:元宇【新智元导读】Anthropic让AI开口「招供」了。面对一批被故意植入隐藏行为,还被训练成「不许认账」的模型,IA辅助审计智能体拿下全场最高的59%成功率;更夸张的是,5
阅读全文挑战OpenAI地位的第二极来了。作者|硅谷Tech news编辑|张洪锦本文首发于钛媒体APP据知情人士透露,Anthropic已启动最新一轮融资,要求投资者尽快提交配售方案。据报道,此轮融资预计规
阅读全文AI 时代不奖励旁观者作者:壹小姐编辑:Chen、Koji周日晚八点,进入黑客松的 demo 时间。在上海漕河泾开发区科创公园湖心的 AI Hacker House 小楼里,几十个人陆续合上电脑。有人
阅读全文编辑|杨文、陈陈AI 很快就能自己改造自己了?Anthropic 联合创始人 Jack Clark 发帖称,他最近几周阅读了大量公开的 AI 开发数据后,认为到 2028 年底,递归自我改进(recu
阅读全文编辑 | 泽南AI 时代堆 GPU,原来是这么个堆法?马斯克旗下的 xAI 目前 GPU 资源利用率只有大概 11%。相关报告指出,其 AI 软件栈的优化效果不尽如人意。近日,《The Informa
阅读全文随着MCP、Agent Skills与各类Harness的快速发展,大模型能轻松调用成百上千种外部工具,但在多工具,具备复杂状态、长程交互的任务上仍有明显短板。尽管一系列环境扩展方法尝试复刻真实世界的
阅读全文鱼羊 发自 凹非寺量子位 | 公众号 QbitAI五一假期余额不足之际,低调了有一段时间的豆包悄咪咪搞起了大新闻,直接冲上热搜:这个真·国民级AI助手,要开始收费了。苹果App Store里,订阅服务
阅读全文图片来源:a16zZ Highlights整个Agent技术栈,包括身份认证、支付、营销等,正在兴起。我们还没有看到像MCP这类新兴标准与现有生态的全面竞争,这些都是真正的新范式。其实很多旧的套路和方
阅读全文图片来源:CGTNOpenAI 和 Anthropic 近期一直在严厉打击第三方通过提示其公开可访问的聊天机器人和 API 来训练新 AI 模型的行为,这一过程被称为“蒸馏”。实验室之间在相互使用这些
阅读全文图片来源:Anthropic随着 Anthropic 销售额激增,其使用的服务器不堪重负,该公司正考虑在现有供应商 Google、Amazon 和 NVIDIA 之外,增加 AI 服务器芯片的另一个来
阅读全文作者|赵舟辰邮箱|zhaozhouchen@pingwest.com最近在测试各种AI生图模型的时候,我们发现了一个现象:同样一个提示词,丢给不同的模型,出来的图片风格差异大到像是出自不同摄影流派。I
阅读全文SMARTFLOW · AI DAILY · 05/04「现在的 AI 是它有史以来最糟糕的版本。」— Garry Tan(YC CEO)5-4 转发的一段评论2026-05-04 · 第 125 期
阅读全文虽然官方已经承认降智并声称已修复,GPT-5.5一发布,Claude就承认降智但是最近Claude Code 4.7全系列是真的不好用。新模型甚至在诸多方面的表现都不如老的4.6,各种被Codex 5
阅读全文一、核心摘要不知道你在使用各种AI助手或AI Agent(智能体)时,有没有遇到过这种抓狂的情况:你明明前几天告诉过它“我的项目A决定弃用MySQL,改用PostgreSQL,并且下周三前要完成迁移”
阅读全文每天和你聊天的豆包,要开始收费了。昨天,豆包在 App Store 页面悄悄更新了付费版本服务声明。豆包三档订阅价格也在页面披露了:标准版连续包月每月68元(连续包年 688 元)、加强版连续包月每月
阅读全文