Anthropic最新研究:大模型在与人类互动时,在扮演什么角色?角色为什么会逐渐失控?
Anthropic的最新研究《The Assistant Axis》解释了一个核心问题——大模型在与人类互动时,究竟在“扮演”什么角色?为什么这个角色在某些场景下会逐渐失控?Anthropic针对三个
阅读全文Anthropic的最新研究《The Assistant Axis》解释了一个核心问题——大模型在与人类互动时,究竟在“扮演”什么角色?为什么这个角色在某些场景下会逐渐失控?Anthropic针对三个
阅读全文当 AI 编程工具不再只是“补代码”,而是开始调用技能、执行任务、产出真实工件,它就已经迈入了 Agent 时代。最近不少开发者在使用字节跳动推出的 AI 编程工具 Trae 时,发现它已经不仅是一个
阅读全文图片由 AI 生成在大模型推理日益成为 AI 基础设施核心能力的今天,Mixture of Experts(MoE,混合专家) 模型凭借其“稀疏激活”机制,在万亿参数规模下仍能维持可控的计算开销,正迅
阅读全文2025 年 12 月 29 日,记忆张量MemTensor 凭借项目 《基于记忆强化的 CANN 算子持续进化方案(MemRL)》,获得昇腾 AI 创新大赛 · 全国总决赛 · 初创赛道金奖。在大模
阅读全文在 Qwen2.5 模型推理精度对齐中发现,context 前向后最后一个 token的 logits 分布基本一致(排序一致,小数点1e-1绝对误差(BF16))。经过Temperature/T
阅读全文202601/20Why are you always tired?TED Talk[ 为什么你总是感到疲惫不堪? ]—— 探寻疲劳的真相与解决方案 ——...PART.01疲惫的真相你是否有过这样的
阅读全文上周 Claude Cowork 刷屏的时候,我还在想:什么时候能用上?结果,这周 MiniMax 版 Cowork 就来了。今天,MiniMax Agent 2.0 推出了 Desktop App,
阅读全文当 Agent 只活在网页里,它的能力上限是死的。👦🏻 作者: 镜山🥷 编辑: Koji🧑🎨 排版: NCon1 月 12 日 Claude Cowork 发布之后,很多人注意到了一个非常明显的变化
阅读全文Being-H0.5:通用模型接近专用,长程双臂更稳,部署机制作用明确。作者丨郑佳美编辑丨岑峰如果说过去几年大模型革命解决的是“机器会不会说话、会不会看图”,那么机器人行业真正的问题是另一层:机器能不
阅读全文北邮百家 MemoryOS 团队带你深度梳理AI记忆2026最新综述!2026北邮百家 MemoryOS 团队联合华为,发表最新AI记忆综述《Survey on AI Memory》,涵盖记忆的理论基
阅读全文编辑|泽南、杜伟在语音大模型赛道上,GPT-4o、Gemini 的能力遥遥领先。近日,由复旦邱锡鹏担任首席科学家的模思智能发布了多说话人自动语音识别(ASR)模型 MOSS-Transcribe-Di
阅读全文编辑|Panda一根 256 GB 内存条标价 5000 美元?这个价格已经轻松超过了英伟达顶配显卡 RTX 5090 的市场溢价。此推文引发了广泛讨论,已收获超 200 万浏览,图源:X@Yuche
阅读全文在迈向通用人工智能(AGI)的征途中,多模态大语言模型(MLLMs)虽然在视觉理解与文本生成上展现了惊人的能力,却始终面临一道难以逾越的鸿沟:如何在复杂的数学与几何推理中,克服固有的幻觉与逻辑断层?
阅读全文图片来源:unsplash▎OpenAI加速商业化,硬件、广告双线布局。文|飞向TAI空作者|胡珈萌编辑|李程程本文首发于钛媒体APPOpenAI首款AI硬件设备就要来了!当地时间1月19日,Open
阅读全文今天参加了一场分享会,是 1688 跨境业务产品经理郭经理的现场分享。也借此机会了解了一下跨境电商这个领域是如何运营的,以及有哪些痛点。以下内容是我们的一个学习笔记,分享给各位想要了解跨境业务,以及想
阅读全文「服务器繁忙,请稍后再试。」一年前,我也是被这句话硬控的用户之一。DeepSeek 带着 R1 在一年前的今天(2025.1.20)横空出世,一出场就吸引了全球的目光。那时候为了能顺畅用上 DeepS
阅读全文整理|冬梅 近日,OpenAI 在其官方网站及官方社交媒体公告中表示,公司计划在“未来几周内”开始在 ChatGPT 对话界面中测试广告投放,这些广告将首先面向美国地区的免费版用户以及新推出的低价订阅
阅读全文整理 | Tina谷歌把“Agent 购物”这件事,推到了一个更标准化的层面:Universal Commerce Protocol(UCP)正式亮相。近日(1 月 11 日),谷歌 CEO Sund
阅读全文近日,美团 LongCat 团队开源了其最新的旗舰模型——LongCat-Flash-Thinking-2601。这款基于 5600 亿参数 MoE 架构的新模型,并未单纯追求榜单分数的提升,而是将迭
阅读全文直面文献“深水区”,大模型离 AI 化学家还有多远?当科研人员在浩如烟海的文献中寻觅合成灵感时,大模型能否真正成为具备深度化学素养的“AI 化学家”?近日,由深势科技(DP Technology)主导
阅读全文新智元报道 编辑:Aeneas KingHZ【新智元导读】昨天,Claude刚刚被曝要有永久记忆,今天就被开发者抢先一步。一个叫Smart Forking的扩展,让大模型首次拥有「长期记忆」,无
阅读全文新智元报道 编辑:倾倾【新智元导读】不要被AI的温柔表象欺骗! Anthropic最新研究刺穿了AGI的温情假象:你以为在和良师益友倾诉,其实是在悬崖边给「杀手」松绑。 当脆弱情感遇上激活值坍塌
阅读全文新智元报道 编辑:LRST【新智元导读】最新综述首次系统探讨LLM控制机器人的安全威胁、防御机制与未来挑战,指出LLM的具身鸿沟导致其在物理空间可能执行危险动作,而现有防御体系存在逻辑与物理脱节
阅读全文鹭羽 发自 凹非寺量子位 | 公众号 QbitAI不讲武德!游戏圈这回真是被AI抄家了。(doge)这两天,一个ID名为「快递员」的神秘游戏账号引起全网围观。51小时高强度排位,胜率一度逼近93%,直
阅读全文梦晨 发自 凹非寺量子位 | 公众号 QbitAI智谱AI上市后,再发新成果。开源轻量级大语言模型GLM-4.7-Flash,直接替代前代GLM-4.5-Flash,API免费开放调用。这是一个30B
阅读全文闻乐 发自 凹非寺量子位 | 公众号 QbitAIAI变聪明的真相居然是正在“脑内群聊”?!谷歌最新研究表明,DeepSeek-R1这类顶尖推理模型在解题时,内部会自发“分裂”出不同性格的虚拟人格,比
阅读全文IDEAS Lab实验室 投稿 量子位 | 公众号 QbitAI不知道有多少人曾为了让数据图表既“好看”又“好懂”,而在设计软件与代码编辑器之间反复横跳,熬到“头秃”。如果说过去十年,数据可视化解决的
阅读全文作为一个科技媒体人,基本永远在路上。刚刚过去的 2025 年飞了快 10 万公里,平均每周都要出差一次,让我练就了一个「铁屁股」。这种高强度的差旅让我对打车体验非常敏感,在落地后的「最后一公里」,往往
阅读全文