Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点上: 第一,一个定时捕捉的视频帧,720P,每200ms捕捉一次。字节的Lumine是基于Qwen2-VL-7B-Base进一步训练的。 第二点,混合推理。就是可以选择是不是要思考,简单场景,直接输出动作就好了,比如移动, 重复的操作。复杂场景,先进行思考,比如出现了新的目标。 第三,就是让模型所有的输出都是,鼠标键盘的序列,直接可执行验证。 训练分三个阶段:基础动作→指令跟随→决策推理。 从Lumine-Base到Lumine-Thinking,能力是阶梯式上升的。 Base版本能拾取、开宝箱、爬墙,但没有目标导向。 Instruct版本可以完成指令,短任务(10秒至数分钟任务)成功率80%+。在璃月这种没训练过的场景也能自主导航。 Thinking版本,使用了使用15小时的人工标注推理数据。让模型学会自主规划、反思与修正的能力,测试下来,以蒙德主线为测试场景,第一章56分钟搞定,GPT-5要112分钟。 第二、三章4.7小时,完成率98.2%,Gemini只完成了65%还用了8小时。 跨游戏测试里,《鸣潮》100%完成率,《崩铁》92.3%,《黑悟空》85.7%。 所以整体还是靠模型,逻辑应该都是,先在3D游戏里训练通用Agent,因为相对封闭的游戏环境里,规则清晰、反馈明确。 然后实际目标是具身智能?难得就是真实世界没有血条和小地图。 论文地址:https://arxiv.org/abs/2511.08892
Agent,源神启动~ 字节整了个原神Agent,Google也发了个游戏Agent SIMA 2。 好像很牛,所以仔细瞧了瞧,到底是如何做到让Agent自己玩游戏的呢? 核心设计好像就再3点
阅读全文