机智流

ICML2026｜多模态大模型具身能力诊断：NEU等机构提出技能级评估基准，揭示感知瓶颈与改进路径
作者：机智流发布日期：2026-06-22 21:00:00
当我们在家中拿起一个杯子，走向水槽并冲洗它时，这一系列看似简单的动作背后，涉及了复杂的感知、推理和规划能力。对于旨在与物理世界交互的智能体而言，这些被称为具身能力的技能至关重要。如今，多模态大语言模型
阅读全文
不学亏了！OAI和A社都在力荐，终于有人讲清楚了——Learn Harness Engineering
作者：机智流发布日期：2026-06-21 21:00:00
周末冲浪的时候，偶然发现一个开源的 Harness Engineering 教程，点进去一看——惊了。完全遵守 OpenAI 和 Anthropic 大厂的原意，没有自己胡编乱造，所有的概念、框架、实
阅读全文
ICML 2026｜逻辑智能如何用合成数据训出 SOTA 低资源 TTS
作者：机智流发布日期：2026-06-20 21:00:00
> 本文来自社区投稿逻辑智能团队关于低资源语言 TTS 的研究论文被机器学习顶级会议 ICML 2026 接收。该工作证明，即使真实语音数据稀缺，合成数据也能训练出稳定、自然、可克隆的语音模型。作者丨
阅读全文
GTA-2: 从工具调用到真实工作流，重新定义通用智能体评测
作者：机智流发布日期：2026-06-19 21:30:00
> 本文来自社区投稿引言GTA-2 将智能体评测从原子级工具调用扩展到长程开放式工作流，在结果导向的评估框架下，统一衡量模型能力与执行框架（agent harness）的系统级表现。实验发现前沿模型工
阅读全文
ms-swift 视觉大模型调优与部署实战（上）：VLM 基础与模型调用
作者：机智流发布日期：2026-06-18 20:30:00
> 作者：李剑锋1. 前言在前面的课程中，我们已经围绕大模型的使用与优化，学习了提示词设计、RAG 知识库问答、监督微调、模型部署以及模型测评等内容。通过这些内容，我们其实已经逐步建立起了一条比较完整
阅读全文
一文读懂后训练：从 RLHF 到 MOPD
作者：机智流发布日期：2026-06-17 23:30:00
> 作者：北辰这两天听了 Nathan Lambert 对 Finbarr Timbers 的访谈《Frontier Post-Training Recipe Review》[1]，访谈中，两人一起回
阅读全文
EBench 最新榜单：Qwen-RobotManip 登顶，五维诊断显示更均衡的具身操作能力司南评测体系2026年6月17日 18:05 上海听全文
作者：机智流发布日期：2026-06-17 23:30:00
> 本文转载自「司南评测体系」通用具身操作模型的竞争，正在从“谁的总分更高”，走向“谁的能力结构更完整”。今年 4 月，上海人工智能实验室（上海AI实验室）推出了面向具身操作模型的仿真评测框架 EBe
阅读全文
单核运行整个模型！AutoMegaKernel将Llama编译为持久协同内核，零手工CUDA代码
作者：机智流发布日期：2026-06-16 21:30:00
在当今的大语言模型推理部署领域，我们常常面临一个效率瓶颈。当你向模型输入一个提示词，等待它生成下一个词元时，传统的执行方式（如PyTorch）会为模型中的每一个算子（如线性层、注意力层、归一化层）单独
阅读全文
AI 写了 60% 的代码，为什么企业研发效率还是没飞起来？
作者：机智流发布日期：2026-06-16 21:30:00
来源 | InfoQ 作者 | AICon 全球人工智能开发与应用大会策划 | 李忠良编辑 | 宇琪AI 代码生成率冲到 50%以上，研发周期却没变短；非研发人员开始用 Vibe Coding 写软
阅读全文
不需要精确描述的文本提示词，即可实现“导演级”多镜头运镜克隆！快手清北联合提出视频生成新框架OmniDirector
作者：机智流发布日期：2026-06-15 23:01:00
在电影制作中，导演通过精妙的镜头语言——推、拉、摇、移、跟，来讲述故事、烘托氛围。如今，AI视频生成技术正试图掌握这门艺术，但如何让AI像导演一样，精准地“克隆”一段参考视频中的复杂运镜，并将其无缝应
阅读全文
当环境持续变化，AI智能体如何保持稳健？NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式
作者：机智流发布日期：2026-06-14 22:28:08
在现实世界中，一个为软件开发人员设计的智能体，可能需要面对代码库从Python迁移到Go、依赖版本不断升级、API接口持续演变的挑战。一个长期陪伴用户的个性化助手，需要理解用户从“喜欢咖啡”到“最近改
阅读全文
Fable 5还不如 GPT5.5？UCB发布AI智能体“终极大考”：Agents' Last Exam
作者：机智流发布日期：2026-06-12 23:09:50
图片由 AI 生成人工智能系统在各类基准测试中屡创佳绩，但在许多专业领域，这些进步并未转化为具有经济意义的实际部署。我们普遍观察到一个现象：AI模型在测试中表现出色，却难以胜任真实、复杂且具有经济价值
阅读全文
6.13上海活动邀请｜「月亮与六便士」之端侧智能体创客寻宝狂欢派对
作者：机智流发布日期：2026-06-12 23:09:50
> 本文转载自「OpenBMB」-- 完 --加入机智流 Pro，1 天一块钱，AI 能力指数级增长时代，不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents
阅读全文
从模型文件到 API 服务：LMDeploy 本地部署完整实践
作者：机智流发布日期：2026-06-11 22:15:14
> 作者：李剑锋1. 前言1.1 课程回顾在前面的内容中，我们已经围绕模型训练、模型测评以及本地模型运行，逐步学习了大模型从能力构建到能力调用的基本流程。模型训练主要回答的是模型能不能获得更符合预期的
阅读全文
聊聊SWE-Bench Pro：Claude Mythos 5/Fable 5 的 80.3 分，真的可信吗？
作者：机智流发布日期：2026-06-10 23:07:02
> 作者：北辰随着 Claude Mythos 5/Fable 5 的发布，大家是不是也像我一样被下面这张表刷屏了？特别是 SWE-bench Pro 80.3% 的得分，可以说是完全“碾压” GPT
阅读全文
告别短视调度！中大SlidingServe让大模型推理服务容量提升30%，SLO违规率降低53%
作者：机智流发布日期：2026-06-09 21:00:00
在大语言模型在线服务日益普及的今天，无论是智能问答、代码生成还是智能体交互，用户对响应速度的期待越来越高。一个理想的系统不仅要能同时处理大量请求，保证高吞吐量，还必须确保每个用户都能在可接受的时间内获
阅读全文
音频编辑的“高考”来了：首个大规模多任务评测基准MMAE发布，现有模型几乎“全军覆没”
作者：机智流发布日期：2026-06-08 21:30:00
你正在剪辑一段视频，需要将背景音乐替换为吉他旋律，同时让人声听起来更低沉、更有磁性，并且不能改变说话的内容。又或者，你需要将一段带有地方口音的中文对话，精准地修改为标准普通话发音，同时保留说话人的音色
阅读全文
首个实时交互音频大模型Audio-Interaction问世！南洋理工等团队开启实时“感知-决策-响应”的音频交互新范式
作者：机智流发布日期：2026-06-07 22:31:11
清晨，你一边听书，一边下意识留意着周围的动静，随时准备回应家人的呼唤。这种对连续声音流的实时感知、决策与响应，是人类与生俱来的交互能力。然而，对于当前的人工智能而言，这却是一个巨大的挑战。现有的音频大
阅读全文
好技能应该是代码，但代码必须被审查
作者：机智流发布日期：2026-06-06 22:07:10
> 本文翻译自外网，机智流编辑部校对一个只靠 prompt 描述的 AI skill，跑出来的结果看起来挺像回事，但每次都不一样。出错不报错，跑偏不提醒，你都不知道它什么时候搞砸的。这是 skill
阅读全文
清北团队推出科研绘图“智能助手”CRAFTER！多智能体协同，让科研图表生成更通用、更可编辑
作者：机智流发布日期：2026-06-05 22:24:20
图片由AI生成在科研论文的撰写过程中，制作一张清晰、美观、符合出版规范的图表，往往是研究者们耗时耗力的环节。从构思布局、绘制元素、调整样式到最终排版，每一步都需要精细的手工操作。尽管文本生成图像技术近
阅读全文
开源大模型怎么在本地跑起来？一文讲透 Ollama 部署与调用
作者：机智流发布日期：2026-06-04 21:00:50
> 作者：李剑锋1. 前言1.1 课程回顾在前面的内容中，我们已经围绕大模型训练与模型测评，逐步梳理了从数据构建、监督微调、参数高效调优到效果评估的基本流程。到这一阶段为止，实际上已经回答了两个关键问
阅读全文
EMBGUARD：首个具身智能体安全防护栏，让机器人学会识别物理风险
作者：机智流发布日期：2026-06-03 22:13:24
图片由 AI 生成当你在家中指挥一个机器人助手“给窗边的植物浇水”时，你期望它完成任务，但更希望它足够“聪明”，能注意到植物下方那个正在通电的插线板。一个鲁莽的浇水动作，可能引发短路甚至火灾。现实世界
阅读全文
已服务超1亿用户！阿里推出RTP-LLM推理引擎：4.7倍加载加速，吞吐提升2.5倍
作者：机智流发布日期：2026-06-02 21:32:05
图片由 AI 生成在大语言模型（LLM）浪潮席卷全球的今天，从智能对话到代码生成，再到企业自动化，AI应用正经历着前所未有的范式转移。然而，当我们将这些动辄数百亿甚至上千亿参数的“庞然大物”推向实际生
阅读全文
MiniMax-M3 实测：审美依然能打，Agent 编排更聪明
作者：机智流发布日期：2026-06-01 22:54:34
> 作者：北辰MiniMax-M3 发布今天是 6.1 儿童节，先祝所有超龄的小朋友节日快乐。今天 MiniMax-M3 发布，小编第一时间实测了一下，这次测试我刻意只给了简单提示词，重点看它能不能在
阅读全文
不止一个玩家：Gamma-World 让视频世界模型支持多智能体交互
作者：机智流发布日期：2026-05-31 22:27:24
图片由 AI 生成在多人在线游戏中，几个角色正在一片虚拟世界中协作建造一座高塔。一个角色负责采集资源，另一个负责搭建结构，第三个则在远处警戒。他们各自的视角画面实时同步，动作与反应环环相扣，共同推进着
阅读全文
如何在Vibe Coding时代构建合理的CI Harness
作者：机智流发布日期：2026-05-30 20:00:00
> 本文编译自外网，机智流编辑部校对上个月，一个每周跑 20 万次 CI job 的团队问我们：既然已经有 Claude Code 了，为什么不直接拿它来修复构建失败的CI？我们自己每天都在用 Cla
阅读全文
在Opus 4.8 244页的技术报告里我发现了8个隐藏“彩蛋”和“炸弹”
作者：机智流发布日期：2026-05-29 19:40:49
Claude Opus 4.8 发布了，相信大家已经刷到了很多更强、更快、更诚实、价格不变，还带来 Fast Mode、effort control 和 Claude Code dynamic wor
阅读全文
从训练到测评：用 EvalScope 构建大模型优化闭环
作者：机智流发布日期：2026-05-28 21:06:20
> 作者：李剑锋1. 前言在前面的课程中，我们已经围绕大模型训练过程中的几个关键阶段进行了较为系统的学习。从 SFT（监督微调）到继续预训练，再到后面的 DPO 偏好优化，我们实际上一直在讨论同一
阅读全文
给 Computer Use Agent 接上工具，性能一定会变好吗？
作者：机智流发布日期：2026-05-27 21:00:00
> 本文来自社区投稿这个问题看起来答案应该是肯定的。GUI actions 负责点击、输入、拖拽和滚动，tool calls 负责高效处理结构化操作，两者结合似乎天然应该强于任何单一路径。但在真实桌面
阅读全文
KV缓存迁移非关键？研究揭示多模型LLM调度新挑战：CPU-GPU混合计算与抢占开销的实证研究
作者：机智流发布日期：2026-05-26 21:15:00
图片由 AI 生成随着大语言模型应用场景的不断扩展，一个典型的推理服务后台往往需要同时承载多个不同架构、不同规模、不同专长的模型。这些模型共享着有限且异构的硬件资源，尤其是宝贵的GPU内存。当GPU内
阅读全文