让你的Mac用上DeepSeek-OCR:一个从0到1的开源适配之旅
DeepSeek-OCR这段时间非常火,但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”,而不是“跨设备跨后端”的通吃实现,因此无法直接在苹果设备上运行,对
阅读全文DeepSeek-OCR这段时间非常火,但官方开源的文件是“按 NVIDIA/CUDA 习惯写的 Linux 版推理脚本+模型权重”,而不是“跨设备跨后端”的通吃实现,因此无法直接在苹果设备上运行,对
阅读全文从“AI没什么用”到“AI三年内将终结人类工作”,这片巨大的认知鸿沟,就是我们身处的2025年。在这片喧嚣和迷雾之中,我们迫切需要一个清晰的导航图。而Jason Wei正是提供这份地图的最佳人选之一。
阅读全文大型语言模型(LLM)本身很强大,但知识是静态的,有时会“胡说八道”。为了解决这个问题,我们可以让它去外部知识库(比如维基百科、搜索引擎)里“检索”信息,这就是所谓的“检索增强生成”(RAG)。但这还
阅读全文您可能已经听过“Brain Rot(脑腐烂)”这个词,它在2024年被牛津大学(Oxford)评为年度热词,本意描述的是人类长期沉浸浅层信息流带来的注意力、记忆与社交认知的耗损。Texas A&M U
阅读全文DeepSeek昨天开源了它们的多模态模型DeepSeek-OCR,主打用视觉压缩技术重新定义文本处理,长上下文难题迎来新解法!这个家伙厉害在能覆盖100多种语言,除了整页文字,还能对图表、化学式、几
阅读全文每隔一阵子,总有人宣告“RAG已死”:上下文越来越长、端到端多模态模型越来越强,好像不再需要检索与证据拼装。但真正落地到复杂文档与可溯源场景,你会发现死掉的只是“只切文本的旧RAG”。当图、表、公式与
阅读全文通用人工智能AGI可能是人类历史上最重要的技术,但这个词本身长期模糊不清、标准不断挪动。随着窄域 AI 把越来越多“看似需要人的智慧才能干”的活干得有模有样,人们对“什么才算 AGI”的门槛就跟着改,
阅读全文中科院的这篇工作解决了“深度搜索智能体”(deep search agents),两个实打实的工程痛点,一个是问题本身不够难导致模型不必真正思考,另一个是上下文被工具长文本迅速挤爆导致过程提前夭折,研
阅读全文上周写了两篇关于GEPA的文章《Agent多步误差咋破?看下GEPA,反思自进化+帕累托前沿,超过DSPy的MIPROv2》《别被提示词优化困住!用DSPy.GEPA把Prompt做成可演进的工程(万
阅读全文PyMC Labs 和个人护理领域的龙头企业高露洁-棕榄一起发了篇论文,核心想法很简单:传统消费者调研又贵又慢,还容易被面板偏差、迎合式作答这些老问题拖后腿。两家就想找一条更省钱省时、还能和现有流程配
阅读全文Meta提出早期经验(Early Experience)让代理在无奖励下从自身经验中学习:在专家状态上采样替代动作、执行并收集未来状态,将这些真实后果当作监督信号。核心是把“自己造成的未来状态”转为可
阅读全文编者按:调模型不如“管上下文”。这篇文章基于 ACE(Agentic Context Engineering),把系统提示、运行记忆和证据做成可演化的 playbook,用“生成—反思—策展”三角色加
阅读全文写给正在落地 AI 产品的工程师。一些代码直接可改造复用;另一些,是我踩坑后的经验之谈。为什么是 DSPy.GEPA,而不是“再手搓一次提示”DSPy是一个2024年5月修猫曾反复推荐给大家的一个AI
阅读全文您修过Bug吗?在Vibe coding的时代之前,当程序员遇到自己写的 Bug 时,通常能顺着自己的思路反推问题所在。但当面对 AI 生成的 Bug 时,情况变得复杂得多,我们不清楚 AI 的“思考
阅读全文在人工智能的研究中,我们关心的是在序贯决策里如何实现长期目标的最优化;然而,一旦缺乏全局校正,哪怕每一步看似合理,仍可能在错误前提上越走越偏。在多步骤任务中,Agent 可能由于对指令的误解、知识的缺
阅读全文随着数字化时代的到来,文档数量急剧增加。文本文件、网页、幻灯片、海报、电子表格数据,甚至场景文本图像。这些文档不仅封装了不同行业内部和外部事务的处理细节和积累的知识,还涵盖了大量的行业相关实例和数据,
阅读全文长程、多轮对话(long-horizon, multi-turn dialogues)一直是当前AI应用领域中一个非常核心且常见的场景。无论是进行复杂的推理、利用外部知识库(RAG)还是使用工具(To
阅读全文对于提升AI能主动发现问题、提出假设、调用工具并执行解决方案,在真实环境里闭环工作,而不只是在对话里“想”的智能体能力(Agency)。在这篇论文之前的传统方法认为,需要遵循传统语言模型的“规模法则”
阅读全文谷歌云刚发布了一篇《Google Cloud Startup technical guide: Al agents》(Google Cloud 创业公司技术指南:AI 代理)这是一份非常详尽和全面的手
阅读全文Tool-Calling作为Agent的核心模块,智能体的双手,这项关键能力允许 LLM 调用外部函数,例如应用程序接口(APIs)、数据库、计算器和搜索引擎,决定了AI Agent的可执行边界。但在
阅读全文从LLM到Agentic的产业拐点上,最难的并不是让模型会写一段代码或生成一份报告,而是把能力稳定地固化进工程体系:如何拆解任务、如何在多人,多Agent协作下保证可追溯、如何做异常恢复与安全护栏、以
阅读全文上下文学习”(In-Context Learning,ICL),是大模型不需要微调(fine-tuning),仅通过分析在提示词中给出的几个范例,就能解决当前任务的能力。您可能已经对这个场景再熟悉不过
阅读全文有很多朋友都研究过MBTI,大家对MBTI已经很熟悉了。但也有一些朋友,对MBTI并不了解,什么是MBTI?迈尔斯-布里格斯类型指标(Myers-Briggs Type Indicator)简称MBT
阅读全文随着Agent的爆发,大型语言模型(LLM)的应用不再局限于生成日常对话,而是越来越多地被要求输出像JSON或XML这样的结构化数据。这种结构化输出对于确保安全性、与其他软件系统互操作以及执行下游自动
阅读全文幻觉并非什么神秘现象,而是现代语言模型训练和评估方式下必然的统计结果。它是一种无意的、因不确定而产生的错误。根据OpenAI9月4号论文的证明,模型产生幻觉(Hallucination),是一种系统性
阅读全文在现代科学中,几乎所有领域都依赖软件来进行计算实验。但开发这些专用的科学软件是一个非常缓慢、乏味且困难的过程,开发和测试一个新想法(一次“试错”)需要编写复杂的软件,这个过程可能耗费数周、数月甚至数年
阅读全文自2017年Transformer架构提出以来,依托GPU集群的大规模计算能力,人工智能迈入大模型时代并取得巨大成功。但其核心的Softmax Attention机制,训练开销会随序列长度呈平方级增长
阅读全文在大型语言模型(LLM)进行数学题、逻辑推理等复杂任务时,一个非常流行且有效的方法叫做 “自洽性”(Self-Consistency),通常也被称为“平行思考”。它的逻辑很简单:不要只让模型想一次,而
阅读全文什么断供不断供,不存在的。。。拳打在沙袋上,沙袋会给你一个反作用力,让你感觉到这次出拳的力量和效果,却也让新手只爱打更快的拳。同样,在强化学习(RL)当中,模型生成的代码在环境中运行后,会返回一个分数
阅读全文