VLA模型为何忽视语言?破解指令跟随幻觉,分布外场景泛化新突破
新智元报道 编辑:LRST【新智元导读】当前VLA模型常依赖视觉线索而非语言指令,导致在新场景下表现不佳。论文提出LangForce方法,通过引入对数似然比损失,强化模型对语言的依赖,提升其在分
阅读全文新智元报道 编辑:LRST【新智元导读】当前VLA模型常依赖视觉线索而非语言指令,导致在新场景下表现不佳。论文提出LangForce方法,通过引入对数似然比损失,强化模型对语言的依赖,提升其在分
阅读全文端侧模型面壁的 MiniCPM-V 4.6 今天开源,1.3B 大小这是 MiniCPM 系列的模型,能够轻松跑在主流手机中,支持多模态架构是 SigLIP2-400M 视觉编码器加 Qwen3.5-
阅读全文作者|李楠邮箱|linan@pingwest.com过去买一支电动牙刷,我们可能要搜索、筛选、看参数、翻评价、比价格、凑满减。现在这个复杂的购物过程,压缩成了与AI的一段对话。5月11日,阿里巴巴宣布
阅读全文作者|Yoky邮箱|yokyliu@pingwest.com5月11日,在MU Shanghai组织的ClawCon活动上,OpenClaw的社区核心成员自己飞过来,在阿里中心的会议室里,面对着从全国
阅读全文文章转载于腾讯科技作者:晓静2011年,Marc Andreessen写下“软件正在吞噬世界”。2026 年,Fortune用了一句话总结当前局面:“那个吃掉世界的东西,正在被吃掉。 ”2026年 4
阅读全文「Agent Harness」是「套壳」的另一种说法。👦🏻 播客采访:Koji🥷 整理编辑:十字路口🧑🎨 排版: Zeoooo🚥 不久前,Claude Code 源代码泄露,许多 Agent Har
阅读全文专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!刚刚,由浙江省卫生健康信息中心、蚂蚁健康与浙江省安诊儿医学人工智能科技有限公
阅读全文专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!老黄又当博士了。这是他的第7个荣誉博士学位,而且英特尔CEO陈立武亲自为其授
阅读全文专注AIGC技术的专业社区,关注大语言模型(LLM)的发展和应用落地,聚焦LLM及AI技术的市场研究和开发者生态,欢迎关注!人工智能的下半场,关键词是“行动”。当大模型不再满足于“对话聊天”,而是开始
阅读全文引言💡 核心省流 (TL;DR):这篇由蚂蚁集团联合复旦大学等多家机构发布的论文,推出了首个专门针对保险领域的中文大模型评测基准 INSEva。为了解决通用金融大模型“懂理财却不懂理赔”的痛点,该基
阅读全文相关推荐:AI 视觉领域的“O1 时刻”来了?让模型从“看图”进化到“推理”,智谱做对了什么?太猛了!仅0.9B参数干翻千亿大模型,智谱GLM-OCR凭什么成为“地表最强”小钢炮?被老外误认成Clau
阅读全文↑阅读之前记得关注+星标⭐️,😄,每天才能第一时间接收到更新 最近一段时间,你刷某音的感受可能和我一样,镜头语言越来越讲究,人物越来越精致,场景越来越像电影,但评论区里经常有人问:这是真拍的还是 AI
阅读全文和去年一样,在正式的 Google I/O 开发者大会之前,谷歌为 Android 单独开了一次小型发布会。本次 Android Show 上,谷歌几乎是一股脑将未来一年有关 Android 和整个
阅读全文我给龙虾发了一句话。「生成一条 30 秒的科幻短剧。人类灭绝,最后一个冬眠舱里的人醒来,发现一个破旧的机器人守护了他 300 年。」几分钟后,龙虾发回来一条短剧视频。剧本是它自己写的,5 场戏,从开场
阅读全文导读开发者 Akshay 在 X 上发了一张 Claude Code 六层架构图,累计近 7.5 万次浏览。图的核心观点:模型只是整个循环里的一个节点,真正驱动 Claude Code 能力的,是模型
阅读全文引言如果说模型是引擎,那么评测基准就是赛道。没有好的赛道,我们永远无法知道一辆跑车的真正极限在哪里。随着大语言模型(LLM)和AI Agent的能力边界不断向外扩展,评测基准的迭代速度甚至比模型本身
阅读全文现在很多人会有一个错觉,有了 AI,项目好像已经不用模板框架了。反正登录上传权限这些都可以让 AI 写。听起来很美好,但真正做项目的时候你会发现:AI能帮你写代码,但它不能保证每次都给你一套稳定、统一
阅读全文就在我们还在消化Anthropic工程师Thariq的实操干货、忙着用HTML解锁AI输出新姿势时,更炸裂的消息来了——AI教父Andrej Karpathy(卡帕西)直接公开站台,彻底把HTML替代
阅读全文你的第一个 agent 也许只带着一个 500 个 token 的 system prompt 和两个工具上线,但这些数字通常会很快膨胀。举个例子,泄露的 Claude system prompt 大
阅读全文bench_sampling# https://github.com/flashinfer-ai/flashinfer/blob/48966b603ebabcd003f7272e8dc161ce05
阅读全文图片由 AI 生成随着大语言模型(LLM)的上下文窗口不断扩展,从数十万词元迈向百万级别,一个核心的挑战日益凸显:模型推理时,用于存储注意力计算中间状态的关键值(KV)缓存会线性增长,这给GPU内存容
阅读全文上周大模型圈子有个很魔幻的场面,傅盛、孙宇晨、特朗普家族,三个八竿子打不着的人,开始扎堆做大模型中转站的生意。说明了一个问题,现在AI模型的供给侧,依旧是没有看起来的那么成熟。大多数人只关注到LLM,
阅读全文机器之心编辑部过去十年,AI 卡的是算力;未来十年,物理 AI 卡的是数据。而数据的前提,是仿真。没有可规模化的仿真世界,就没有可规模化的机器人数据;没有统一的仿真标准,就不会有真正的物理 AI 生态
阅读全文机器之心编辑部真的太炸裂了。从变形金刚,高达,到环太平洋,相信大家多少都怀揣一个机甲梦想。2018 年 10 月,马斯克发了条推文说要造机甲。8 年时间过去了,马斯克那边什么也没搞出来。结果现在你跟我
阅读全文近日,字节跳动智能创作部门(Intelligent Creation Lab)提出新作 DreamLite,一个主干网络仅有 0.39B 参数的轻量级统一扩散模型,在单一网络内同时支持文生图(Text
阅读全文新智元报道 编辑:好困 桃子【新智元导读】Atlas倒立刷屏,但智元已经把机器人送进产线搬砖了!累计出货超万台、营收年增20倍,邓泰华在香港定义「部署态元年」:2026年,机器人必须真的能干活。
阅读全文新智元报道 编辑:Aeneas【新智元导读】绝杀!OpenAI发布GPT-Realtime-2:首个GPT-5级推理音频模型,OpenAI正式接管人类耳朵人类与机器的最后一道「防火墙」——键盘,
阅读全文新智元报道 编辑:LRST【新智元导读】语音合成这两年发展迅速:把一段话顺顺当当地念完,已经不算难事;难的是该慢的时候慢,该顿的时候顿,该强调的时候真能把重点托出来。语音合成这些年最明显的进展,
阅读全文