全部安全开发新闻数码摄影汽车北京AIIT其他
  • 文章封面

    斯坦福用一句Prompt就结束了提示工程。。。

    作者:AI修猫Prompt发布日期:2025-12-03 16:43:27

    最近口述采样很火。如果您经常使用经过“对齐”训练(如RLHF)的LLM,您可能已经注意到一个现象:模型虽然变得听话、安全了,但也变得巨“无聊”。当您让它“讲一个关于咖啡的笑话”时,它可能总是反复讲那个

    阅读全文
  • 文章封面

    DeepSeek-V3.2来了,Bye Gemini 3.0!

    作者:AI修猫Prompt发布日期:2025-12-02 03:40:34

    最近几个月,大语言模型(LLM)领域出现了一个有趣的现象:虽然开源社区依然活跃,但闭源模型(如GPT 5系列、Claude 4.5、Gemini 3.0)似乎正在加速拉开差距。可能是西方马上圣诞节的缘

    阅读全文
  • 文章封面

    如何让Agent具备「情感」当前趋势、挑战与未来|来自298篇研究的最新综述

    作者:AI修猫Prompt发布日期:2025-12-01 13:28:00

    在当前的情感计算研究中,存在一个显著的“断层”:我们拥有越来越精准的情感识别算法(输入端),也有了逼真的语音和面部生成技术(输出端),但连接这两端的“中间层”却鲜有人问津。机器能识别出你在愤怒,也能模

    阅读全文
  • 文章封面

    理解语言意味着什么?| 哈佛最新

    作者:AI修猫Prompt发布日期:2025-11-28 09:06:09

    这篇文章聚焦一项由Colton Casto、Anna Ivanova、Evelina Fedorenko和Nancy Kanwisher等研究者完成的工作,他们分别来自哈佛Kempner研究所、佐治亚

    阅读全文
  • 文章封面

    AI基准测试集体塌房,最高84%都是坏题 |斯坦福最新研究

    作者:AI修猫Prompt发布日期:2025-11-27 16:29:49

    基准测试(Benchmarks)在人工智能的发展进程中扮演着至关重要的角色,构成了评价生成式模型(Generative Models)性能的事实标准。对于从事模型训练与评估的AI研究者而言,GSM8K

    阅读全文
  • 文章封面

    OpenAI发布Codex实战手册,GPT5.1的持续工作极限为2小时17分钟

    作者:AI修猫Prompt发布日期:2025-11-26 12:46:55

    2小时17分钟,这是截至2025年8月,前沿AI模型在保持50%成功率的前提下,能够维持连续推理工作的时长。这个数字意味着AI已经从处理“秒级”的代码片段,跨越到了处理“小时级”的复杂工程任务。基于此

    阅读全文
  • 文章封面

    UIUC将人类和LLM的思维差异总结为28个认知要素,这条元Prompt让LLM性能暴涨60%。

    作者:AI修猫Prompt发布日期:2025-11-25 10:52:03

    如果告诉你,仅仅改变提示词(Prompt)的结构,就能让大模型在复杂推理任务上的表现暴涨 60%,你相信吗?几天前,来自伊利诺伊大学香槟分校(UIUC)、华盛顿大学(UW)、普林斯顿和哈佛的研究团队发

    阅读全文
  • 文章封面

    Scaling Law的焦虑差距可以由「交互深度」解决,MiroMind用Qwen3-72B在GAIA中超越GPT5

    作者:AI修猫Prompt发布日期:2025-11-24 07:02:00

    在过去五年,AI领域一直被一条“铁律”所支配,Scaling Law(扩展定律)。它如同计算领域的摩尔定律一般,简单、粗暴、却魔力无穷:投入更多的数据、更多的参数、更多的算力,模型的性能就会线性且可预

    阅读全文
  • 文章封面

    Gemini3 GPT5.1接连发布,模型越来越强,AI真的能拿诺贝尔奖吗?

    作者:AI修猫Prompt发布日期:2025-11-21 22:09:15

    随着Gemini 3.0、GPT-5.1的接连发布,AI 的能力边界再次被拓宽。一个令人兴奋的命题已然浮现:LLM 能否突破“解题者”的范畴,进化为能提出新颖科学假设的“科学家”,像爱因斯坦提出相对论

    阅读全文
  • 文章封面

    Google Antigravity「系统提示词」简直太牛了,厉害是有原因的

    作者:AI修猫Prompt发布日期:2025-11-20 14:11:01

    Google昨天伴随Gemini3.0pro一同发布了他们的AI IDE产品Antigravity《与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?》。其震撼性的三

    阅读全文
  • 文章封面

    与Gemini 3.0一起发布的AI IDE「Antigravity」究竟有多厉害?

    作者:AI修猫Prompt发布日期:2025-11-19 11:27:59

    就在几小时前,Gemini 3.0重磅发布。随着而来的还有其颠覆性的AI原生IDE产品——Antigravity,这不只是一个新工具那么简单。谷歌的这次发布,将三个核心开发工具,AI代理(Agent)

    阅读全文
  • 文章封面

    Agent的RL和LLM的RL是一回事吗?牛津用500+论文写成综述,一次说清Agentic RL

    作者:AI修猫Prompt发布日期:2025-11-18 07:00:00

    当我们谈论大型语言模型(LLM)的"强化学习"(RL)时,我们在谈论什么?从去年至今,RL可以说是当前AI领域最炙手可热的词汇。在过去很长一段时间里,这个词几乎等同于 RLHF(人类反馈强化学习)一种

    阅读全文
  • 文章封面

    LLM为什么能替你操作电脑?4个关键技术让AI拥有"操作系统级"能力|Agent和工作流的区别就在这

    作者:AI修猫Prompt发布日期:2025-11-17 07:26:00

    如何构建一个真正意义上的“自主代理”(Agent),而不是一个“带LLM的高级工作流”? 让钢铁侠中的“贾维斯”(J.A.R.V.I.S.)真正来到现实,不仅能对话,还能调动资源、控制机械、在复杂战局

    阅读全文
  • 文章封面

    Memory和RAG的区别在哪?用「上下文工程」做出个性化 AI(谷歌白皮书精读)

    作者:AI修猫Prompt发布日期:2025-11-14 06:58:00

    谷歌在第三天发布了《上下文工程:会话与记忆》(Context Engineering: Sessions & Memory) 白皮书。文中开篇指出,LLM模型本身是无状态的 (stateless)。如

    阅读全文
  • 文章封面

    让LLM像公司一样干活:微软把“思维并发”做成了协议,准确率更高、关键路径时延降28%

    作者:AI修猫Prompt发布日期:2025-11-13 06:55:00

    我们长期把LLM当成能独闯难关的“单兵”,在很多任务上,这确实有效。可一旦问题牵涉多步依赖、分支探索和中途验证,顺序思考 (Sequential Thinking)的推理链条就开始吃力,甚至崩溃,链条

    阅读全文
  • 文章封面

    让CoT随环境「演化」,AgileThinker实现“边想边做”|清华最新

    作者:AI修猫Prompt发布日期:2025-11-12 16:32:27

    和我们第一次在高速上驾驶汽车一样,在这种高压时刻,我们的大脑展现出一种惊人的能力:我们不会为了“规划变道”这个复杂任务而“暂停”当前的“反应”任务。我们更不会闭上眼睛思考30秒,让车自动驾驶,当然现在

    阅读全文
  • 文章封面

    谷歌的两个5天课程都讲了什么,介绍一下这9+N份白皮书 |最新

    作者:AI修猫Prompt发布日期:2025-11-11 16:21:23

    2025年末,谷歌通过Kaggle平台,以前所未有的力度,连续推出了两个为期五天的线上强化课程。这不仅仅是两次普通的线上分享,更像是一场由谷歌顶级机器学习(ML)研究员和工程师亲自引领的、深入探索生成

    阅读全文
  • 文章封面

    如何打造AI科学家?AI Scientist综述,从模块到自治六阶段方法 |最新

    作者:AI修猫Prompt发布日期:2025-11-10 12:19:20

    本文基于研究者的系统性综述,围绕“AI Scientist(AI科学家)”这一新的概念展开,核心线索是研究者的六阶段方法论与三阶段演进轨迹;您如果正搭建一个可验证、可协作、可扩展的研究自动化体系,这篇

    阅读全文
  • 文章封面

    如何自动优化领域任务的提示词?用EGO-Prompt|NeurIPS 2025

    作者:AI修猫Prompt发布日期:2025-11-07 07:50:00

    大型语言模型(LLMs)正迅速成为从金融到交通等各个专业领域不可或缺的辅助决策工具。但目前LLM的“通用智能”在面对高度专业化、高风险的任务时,往往显得力不从心。为了弥合这一差距,我们目前高度依赖领域

    阅读全文
  • 文章封面

    40页的上下文工程ebook「深度拆解」|weaviate

    作者:AI修猫Prompt发布日期:2025-11-06 06:50:00

    如果你也在做 RAG 或智能体应用,大概经历过这些瞬间:文档切得太碎,答案失去上下文;切得太大,又召回不准;加了更多提示词,效果可能更不稳定。Weaviate 团队比我们更早碰到这些问题,这是一家总部

    阅读全文
  • 文章封面

    Context Engineering 2.0:在未来,一个人的本质,就是其所有上下文的总和|上海交大

    作者:AI修猫Prompt发布日期:2025-11-04 20:40:31

    在几天前,上海交大发布了一篇名为 《上下文工程2.0:上下文工程的上下文》(Context Engineering 2.0: The Context of Context Engineering) 的

    阅读全文
  • 文章封面

    重磅「RLI」远程劳动力指数:97.5%的赚钱工作AI无法代替人类完成,现在焦虑尚早!

    作者:AI修猫Prompt发布日期:2025-11-03 20:42:26

    最近出现了一篇题为《远程劳动力指数:衡量AI对远程工作的自动化》(Remote Labor Index: Measuring AI Automation of Remote Work)的重磅研究。这篇

    阅读全文
  • 文章封面

    代码自己改自己?我用1000万DeepSeek跑通了赫胥黎-歌德尔机HGM(附避坑指南)

    作者:AI修猫Prompt发布日期:2025-10-30 06:50:00

    读者,您好!今天想跟您聊一个硬核又极具启发性的项目——HGM(Huxley-Gödel Machine)。我刚刚一起花了几个小时,从环境配置的坑,一路“打怪升级”到让它最终跑完,相信您可能已经从别的公

    阅读全文
  • 文章封面

    中科院最新Vibe Coding综述,五种方式用AI,你是哪一种?

    作者:AI修猫Prompt发布日期:2025-10-29 07:30:00

    编码智能体(Coding Agents),这些智能体能够处理复杂的编程任务,与开发环境交互,执行测试,甚至进行自我调试。这一飞跃催生了一种范式转变,带来了一种引人思考的新开发方法论,尽管“Vibe C

    阅读全文
  • 文章封面

    让你的Mac用上DeepSeek-OCR:一个从0到1的开源适配之旅

    作者:AI修猫Prompt发布日期:2025-10-27 23:34:12

    DeepSeek-OCR这段时间非常火,但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”,而不是“跨设备跨后端”的通吃实现,因此无法直接在苹果设备上运行,对

    阅读全文
  • 文章封面

    验证者定律,智能的锯齿边缘和商品化,CoT之父Jason Wei2025AI进展的三个思路

    作者:AI修猫Prompt发布日期:2025-10-24 21:52:12

    从“AI没什么用”到“AI三年内将终结人类工作”,这片巨大的认知鸿沟,就是我们身处的2025年。在这片喧嚣和迷雾之中,我们迫切需要一个清晰的导航图。而Jason Wei正是提供这份地图的最佳人选之一。

    阅读全文
  • 文章封面

    最新Agentic Search综述,RL让Agent自主检索,RAG逐渐成为过去式

    作者:AI修猫Prompt发布日期:2025-10-23 20:22:42

    大型语言模型(LLM)本身很强大,但知识是静态的,有时会“胡说八道”。为了解决这个问题,我们可以让它去外部知识库(比如维基百科、搜索引擎)里“检索”信息,这就是所谓的“检索增强生成”(RAG)。但这还

    阅读全文
  • 文章封面

    和人类一样?LLM也会认知能力会退化,当它看久了短平快内容 |最新

    作者:AI修猫Prompt发布日期:2025-10-22 00:05:33

    您可能已经听过“Brain Rot(脑腐烂)”这个词,它在2024年被牛津大学(Oxford)评为年度热词,本意描述的是人类长期沉浸浅层信息流带来的注意力、记忆与社交认知的耗损。Texas A&M U

    阅读全文
  • 文章封面

    AI的光学时刻来了,DeepSeek-OCR运行3B参数,仅6.2G,完美!

    作者:AI修猫Prompt发布日期:2025-10-21 08:57:40

    DeepSeek昨天开源了它们的多模态模型DeepSeek-OCR,主打用视觉压缩技术重新定义文本处理,长上下文难题迎来新解法!这个家伙厉害在能覆盖100多种语言,除了整页文字,还能对图表、化学式、几

    阅读全文
  • 文章封面

    是RAG已死,还是RAG Anything,All in RAG?

    作者:AI修猫Prompt发布日期:2025-10-20 00:17:29

    每隔一阵子,总有人宣告“RAG已死”:上下文越来越长、端到端多模态模型越来越强,好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景,你会发现死掉的只是“只切文本的旧RAG”。当图、表、公式与

    阅读全文
上一页下一页