根据 2026-05-20 组会分享整理 | 分享人:李卓然、王启源


5 20 日的组会围绕机器人智能体中的两个关键问题展开:一个是复杂机器人 Agent 系统到底应该怎样拆开,另一个是“World Action Model 是否真的需要在测试时先想象未来再执行动作

本期两篇分享分别由李卓然同学和王启源同学带来。前者梳理了 BAAI RoboOS / RoboBrain 系列工作,从 Agent 架构、Brain、训练、记忆四个层面理解机器人系统;后者阅读 Fast-WAM,讨论如何在保留世界模型训练收益的同时,显著降低推理时延。

RoboOS 任务执行流程

一、RoboOS / RoboBrain:一个机器人 Agent 系统怎么被拆开

李卓然同学的分享并不把 RoboOS / RoboBrain 看成单篇论文,而是把这一系列工作作为一个机器人 Agent 全家桶来理解。沿着这条线,系统大致可以拆成四层:

层次

代表工作

角色

Agent 架构

RoboOS, RoboOS-NeXT

任务分解、DAG 调度、多机器人协作

Brain

RoboBrain 1.0 / 2.0 / 2.5

视觉理解、规划、空间推理、过程价值估计

Training

ShareRobot, Reason-RFT, OmniSAT, Robo-Dopamine

让模型学会推理、动作 token 化、进度评估

Memory

Shared Memory, STEM, RoboMemory

保存世界状态、历史轨迹和经验,并在执行时检索

这个拆法的核心价值在于:它把一个端到端机器人系统拆成了可以调试、可以替换、可以评估的模块,而不是把所有能力都压进一个黑盒 VLA

RoboOS 总体架构

1. RoboOS:从聊天式多 Agent”到可调度任务图

RoboOS 的基本设计可以概括为三部分:

Brain 在云端做高层理解和任务分解;Cerebellum / Skill Library 在机器人端执行导航、抓取和专用技能;Shared Memory 保存空间状态、执行历史和机器人状态。

一次任务的运行链路通常是:

  • 输入全局任务;
  • Brain shared memory 中检索相关状态;
  • 生成 reasoning trace subtask DAG
  • Monitor 按拓扑依赖调度子任务;
  • Robotic Agent 调用工具或技能执行;
  • 执行反馈和场景变化写回 memory

这里最关键的不是多个 agent 互相聊天,而是系统生成的是可调度、可检查、可回放的任务图。对于多机器人场景,这一点尤其重要:谁能做什么、谁正在执行、哪些步骤有依赖、失败后如何恢复,都需要从隐式对话变成显式状态。

2. RoboBrain:从 2D 操作到 3D 空间与过程价值

RoboBrain 1.0 主要围绕三类输出展开:planningaffordance trajectory。也就是说,模型不仅要把任务拆成步骤,还要指出可交互区域,并给出 2D 操作轨迹或关键点。

RoboBrain 1.0 planning / affordance / trajectory

RoboBrain 2.0 进一步走向更通用的 embodied reasoning model:输入侧支持多图、长视频、高分辨率和场景信息;输出侧覆盖规划、空间坐标、轨迹与 reasoning。训练上,它引入更大规模的 spatial / temporal / robotic data,并在后训练中借鉴 Reason-RFT 的思路,即先用 CoT-SFT 激活推理格式,再用 GRPO / RFT 强化。

RoboBrain 2.0 架构

到了 RoboBrain 2.5,升级重点变成两个关键词:Precise 3D Spatial Reasoning Dense Temporal Value Estimation。前者把空间能力从 2D referring / keypoint 推进到 3D referringmeasuring trace generation;后者则让模型对执行过程给出更密集的进度估计,可以作为 reward critic signal

RoboBrain 2.53D 空间推理与过程价值估计

这意味着 Brain 不只是会给计划,还开始具备判断动作是否真正推进任务的能力。对于长程任务而言,这种过程价值估计很重要,因为最终成功与否往往太稀疏,无法支撑每一步决策。

3. Reason-RFT:为什么不能直接上 RL

RoboBrain 系列的训练线索中,Reason-RFT 是一个值得单独拎出来看的环节。它采用两阶段策略:

  • CoT-SFT:先用少量高质量推理数据激活 reasoning format
  • GRPO / RFT:再通过 format reward accuracy reward 强化。

Reason-RFT 两阶段训练

背后的直觉是:小模型如果直接 RL,容易学会格式正确这类便宜奖励,而不一定真的获得任务推理能力。先经过 CoT-SFT,模型至少知道应该以什么形式展开推理,后续 RL 才更稳定。

4. OmniSAT:连续动作如何变成可预测的 token

RoboBrain-X0 的工程发布中提到其 includes RoboBrain 2.0 and OmniSATX0 本身目前更像官方工程版本,而不是独立论文;真正值得技术上拆解的是 OmniSAT 如何把连续动作接到自回归模型输出上。

RoboBrain-X0 OmniSAT

OmniSAT action tokenizer 可以理解为以下流程:

  • 将连续轨迹归一化;
  • B-spline 把不同长度的轨迹拟合成固定长度控制点;
  • positionrotationgripper 分组;
  • 对每组使用 residual quantization 生成离散 token
  • 自回归 VLA 预测 token,再解码回连续动作。

OmniSAT action tokenizer

对于单臂动作 [x, y, z, roll, pitch, yaw, gripper]position 组对应 x/y/z 控制点,rotation 组对应 roll/pitch/yaw 控制点,gripper 单独成组。分组不是模型自动发现的,而是按动作向量的物理语义进行切片。这样做的原因也很直接:平移、旋转和夹爪开合的数值分布与物理含义不同,用独立 codebook 量化更合理。

5. Memory:机器人 Agent 的外部世界状态

长程机器人任务中,如果模型每一步都只从当前图像重新猜世界状态,很容易出问题:物体可能被遮挡,上一轮动作结果可能丢失,多机器人状态需要同步,失败恢复也需要历史路径。因此 memory 不是提示词增强,而是机器人 Agent 的外部世界状态。

RoboOS Shared Memory 包含三类:

记忆类型

内容

Spatial

dynamic scene graph:物体、位置、空间和功能关系

Temporal

task feedbacktool-calling history、执行日志

Robotic

机器人状态、能力、关节、电量和连接状态

RoboOS-NeXT memory 进一步形式化为 STEM

M(t) = (S(t), T(t), E(t))

其中 Spatial scene tree + object relation graphTemporal timestamped queueEmbodiment robot profile,包括位置、能力、约束和状态。

RoboOS-NeXT STEM memory

RoboMemory 则给出了更具体的 memory 管理方案:Temporal 使用 FIFO buffer,并在满时压缩旧 summarySpatial 使用 dynamic KG,并支持局部 sub-KG 检索与更新;Semantic Episodic memory 则以自然语言条目、任务轨迹、动作和反馈为核心,通过 vector DB 检索。

如果要做一个最小复现系统,分享中给出的路线是:

  • PlannerLLM / VLM 生成下一步动作;
  • Temporal FIFO:记录最近步骤,满了后总结压缩;
  • Spatial KG:维护物体、关系和位置;
  • Semantic / Episodic vector DB:保存规则与成功/失败轨迹;
  • Retrieval:每步按 query 检索 memory 拼进 planner
  • Critic:第二步以后检查动作,避免无限重规划。

这条路线非常适合用来验证 memory 到底有没有用:如果去掉 memory,系统在哪些长程、多物体、多机器人场景中明显退化,就能看得很清楚。

二、Fast-WAMWorld Action Model 是否需要测试时想象未来

王启源同学分享的 Fast-WAM 聚焦另一个问题:World Action Model 的性能收益,到底来自训练时的视频预测,还是来自推理时显式生成未来帧?

Fast-WAM 论文信息

主流 WAM 架构大致可以分成两类:

类型

代表工作

基本思路

Joint

Motus, Cosmos Policy, DreamZero

视频 token 和动作 token 联合建模、联合去噪

IDM

LingBot-VA

先预测视觉未来,再通过 inverse dynamics 解码动作

Fast-WAM 的核心判断是:训练时的视频目标很重要,因为它给模型注入物理先验和动作表征;但推理时不一定要完整生成未来视频。也就是说,模型可以在训练中学会想象,但在部署时不必真的慢慢想完再动

三类 WAM 范式对比

1. 现有路线的瓶颈:强但慢

LingBot-VA 为例,它采用 dual-stream 架构:Video Model 负责视觉动力学预测,基于历史观测预测未来;IDM 则从期望的视觉转换中解码动作。工程上,它通过 KVCacheVideo Model Action Model 计算/执行 overlapFDM 锚定等方式优化,部署时延约 320 ms;再通过不完全去噪,将 s = 0.5 时缩减到 3 denoise

LingBot-VA dual stream

Motus 则是 joint 路线代表,使用 tri-joint 架构:一个 unified transformer 在单个 chunk 内通过 joint attention 共享视频、动作和语言知识。它的问题同样在部署侧,推理时延也在 300 ms 以上。

Motus tri-joint 架构

这些方法都说明了 WAM 的有效性,但也把问题暴露出来:如果机器人每一步都要进行迭代视频去噪,那么动作闭环会被明显拖慢。

2. Fast-WAM 的设计:训练时联合去噪,推理时只取 latent world representation

Fast-WAM 的架构可以概括为一句话:训练时像 joint WAM,推理时不显式生成未来视频。

Fast-WAM 模型架构

具体地,它以 Wan2.2-5B backbone,包含 VAE Encoder Text EncoderVideo DiT 5BAction DiT 1B,二者采用相似的 MoT 结构。训练时,Video DiT Action DiT 联合去噪,视频 token 仍然作为学习物理先验的重要目标;推理时,Video DiT forward 一轮,不做完整去噪,Action DiT 只能看到当前帧对应的 latent 信息,然后直接预测 action chunk

这一点正是 Fast-WAM 的技术取舍:保留视频 co-training 带来的表征收益,去掉测试时显式 future generation 的主要开销。

3. 实验结果:co-training 重要,test-time imagination 未必必要

RoboTwin 上,Fast-WAM 在没有 embodied pretraining 的情况下达到 91.8 平均分,接近使用 embodied pretraining LingBot-VA 92.2,并明显高于 Motus from WAN2.2 77.3。消融中,去掉 video co-train 后平均分从 91.8 降到 83.8,说明训练时的视频目标确实是关键来源之一。

RoboTwin 结果与消融

LIBERO 上也能看到类似趋势:Fast-WAM 平均 97.6,接近 Motus 97.7 LingBot-VA 98.5;去掉 video co-train 后降到 93.5Fast-WAM-Joint Fast-WAM-IDM 变体在 LIBERO 上分别为 98.5 98.0,说明想象未来再执行不是完全无效,而是其边际收益需要和时延成本一起看。

LIBERO 结果与消融

真实毛巾折叠任务中,时延差距更直观。图中 Fast-WAM 的推理时延约 190 msFast-WAM-Joint 580 msFast-WAM-IDM 810 ms。换句话说,显式 future denoising 会把动作闭环拖到数倍开销,而 Fast-WAM 仍能保持较强真实任务表现。

真实毛巾折叠任务:成功率、完成时间与时延

Fast-WAM 的实验设置也值得注意:分享中提到其使用单张 5090D 推理,每次预测 32 actionaction denoise 10 步,视频在时间上做 4x 采样。对于部署讨论而言,这些细节比单纯看成功率更重要,因为机器人系统最终要面对的是闭环频率、动作延迟和失败恢复。

4. 延伸对照:VLA 与外挂 World Model

分享最后还对照了 Pi0.7 一类 VLA + World Model 的路线:主 VLA 负责动作,14B BAGEL world model 提供 subgoalHigh-Level Policy 生成 subtask,并通过 metadata 支持更多数据利用。

Pi0.7VLA 与外挂 world model

这类路线的核心工程问题也落在时延上。分享中提到,其推理时延从 38 ms 到最坏 127 ms;对新增的 subgoal subtask 开销,系统采用异步推理,subgoal / subtask 直接异步读取,不阻塞主动作链路,并在 subtask 变化或超过 4 秒时刷新。World Model 侧使用 4 H100 4 路张量并行,配合 8-bit 量化和 SageAttention,将 25 step 控制到约 1.25 s

这和 Fast-WAM 的问题意识是一致的:world model 能带来更好的物理先验和长期目标,但在机器人闭环中,任何想象都必须被放进时延预算里。

三、两篇分享放在一起看:系统分解与推理时延是一体两面

这两篇分享看似主题不同,其实都在回答同一个问题:如何把机器人智能从单个大模型能力变成可部署系统能力

RoboOS / RoboBrain 的答案是系统分解:把任务规划、DAG 调度、技能执行、memory 更新、critic / reward 拆成明确模块,让每一层都有可观测状态。它适合思考长程任务、多机器人协作和失败恢复。

Fast-WAM 的答案是推理路径重构:承认视频预测对表征学习有帮助,但尽量避免在部署时完整生成未来视频,把 world representation 的收益和动作闭环的时延预算重新平衡。

从工程视角看,一个可用的机器人 Agent 可能需要同时吸收这两类思路:

  • 高层用类似 RoboOS 的结构,把任务拆成 DAG,并用 memory 保存世界状态和执行历史;
  • 低层用类似 Fast-WAM 的方式,让动作模型获得 world model 训练收益,但在闭环控制中避免不必要的推理开销;
  • 中间通过 criticvalue estimation dense progress signal 判断动作是否推进任务,减少长程任务中的盲目重规划。

如果用一句话总结本周组会:机器人 Agent 的关键不只是模型更大,而是系统能否把理解、记忆、规划、动作和反馈组织成一个低延迟、可调试、可恢复的闭环。

参考

  • RoboOS: https://arxiv.org/abs/2505.03673
  • RoboBrain 1.0: https://arxiv.org/abs/2502.21257
  • RoboBrain 2.0: https://arxiv.org/abs/2507.02029
  • RoboBrain 2.5: https://arxiv.org/abs/2601.14352
  • Reason-RFT: https://arxiv.org/abs/2503.20752
  • RoboMemory: https://arxiv.org/abs/2508.01415
  • RoboOS-NeXT: https://arxiv.org/abs/2510.26536
  • OmniSAT: https://arxiv.org/abs/2510.09667
  • RoboBrain-X0: https://github.com/FlagOpen/RoboBrain-X0
  • Fast-WAM: https://yuantianyuan01.github.io/FastWAM/
Logo

社区规范:仅讨论OpenHarmony相关问题。

更多推荐