近期,高容量视觉-语言-动作 (VLA) 模型通过模仿人类演示,在一系列机器人操作任务中展现出令人印象深刻的性能。然而,在数据分布不均的情况下,利用访问状态有限的离线数据会导致执行失败。直观地说,一种基于探索的方法可以在测试时改进在线收集的数据,从而解决这一限制。我们提出了 VLA-RL,这是一个算法和系统框架,它利用在线强化学习 (RL) 来改进下游任务中预训练的自回归 VLA。在统一的视角下,我们首先为自回归 VLA 训练引入一个轨迹级 RL 公式,该公式将一般的机器人操作轨迹建模为多模态多轮对话。为了解决稀疏奖励的问题,我们将一个预训练的视觉-语言模型微调为机器人过程奖励模型,该模型在自动提取的任务片段上标注的伪奖励标签上进行训练。为了扩大规模,我们确定了多项可提高稳定性和效率的实施成果,包括课程选择策略、GPU 平衡的矢量化环境、批量解码和 Critic 预热。VLA-RL 使 OpenVLA-7B 在 LIBERO 中 40 个具有挑战性的机器人操作任务上的表现超越了最强的微调基线 4.5%,甚至达到了 π0-FAST 等先进商业模型的性能。值得注意的是,我们观察到 VLA-RL 受益于测试时间优化的提升,这表明机器人技术领域推理缩放定律的早期萌芽。
我们通过系统性研究探索了这个问题。为了高效地实现可扩展的强化学习训练,我们提出了 VLA-RL,这是一个统一的框架,它利用在线强化学习来改进预训练的自回归 VLA。具体而言,在统一的视角下,我们首先引入了一种用于自回归 VLA 训练的通用强化学习公式,该公式将一般的机器人操作轨迹建模为多模态多轮对话。为了应对机器人广阔动作空间中奖励稀疏带来的挑战,我们将机器人过程奖励模型实例化为视觉语言模型,并在自动提取的伪奖励标签上进行微调。基于 VLA-RL,我们确定了系统性的实现改进,包括任务选择、GPU 平衡环境、批量解码和评价器预热,以提高稳定性和效率。根据经验,我们采用 OpenVLA-7B作为基础 VLA,并将我们的方法应用于 LIBERO中 40 个具有挑战性的机器人任务。结果表明,VLA-RL 比基础模型提升了 4.5%,甚至与 π0-FAST等先进的商业模型的性能相当。此外,VLA-RL 的性能随着测试时间计算的增加而持续提高,这为机器人技术中推理缩放定律的初步证据提供了依据。
VLA-RL
在本节中,我们首先简要介绍问题描述和开源 VLA 模型(第 3.1 节)。然后概述我们的流程(第 3.2 节)。随后,我们将介绍将机器人操作转化为多模态多轮对话的数学公式(第 3.3 节)。最后,我们将介绍用于奖励密集化的机器人过程奖励模型(第 3.4 节)。为了在实践中应用,我们构建并展示了 VLA-RL 系统(第 3.5 节),并提出了一些关键发现,这些发现有助于利用 RL 进行可扩展的 VLA 训练。
Preliminaries
长期以来,通用机器人操作一直是机器人领域的核心追求。agent需要基于视觉观察和指定当前任务的人类指令,以交互方式确定机器人的下一个动作(末端执行器的姿态),以执行各种任务。近年来,高容量、预训练的视觉和语言模型已在各种语言条件下的操作任务中展现出普遍性。其中,OpenVLA-7B [39] 是一个领先的开源 VLA 模型,因此它成为了我们方法的基础模型。其核心是一个自回归 LLM Llama-2-7B [69],它带有一个双流视觉编码器,由预训练的 SigLIP [86] 和 DinoV2 [55] 模型组成。在每个时间步 t,它会使用第三人称摄像机拍摄图像 ot,并根据人类指令,生成一个action token序列
, 每个action token代表机器人动作空间中一个维度的离散容器。最终的机器人动作是使用后处理函数
从该序列中提取出来的。结果为
。然而,优化自回归 VLA 在算法和系统方面都面临着挑战,包括强化学习的一般操作、稀疏奖励问题以及大规模评估和优化等。
Overall Pipeline
VLA-RL 的整体流程如图 2 所示。我们开发了一个算法和系统框架,用于利用 RL 训练自回归 VLA。该系统包含三个模型,包括需要在常用的 Actor-Critic 框架中训练的策略和价值模型,以及一个冻结的机器人过程奖励模型,该模型用于对环境给出的稀疏奖励进行稠密化。在算法层面,我们将自回归 VLA-RL 训练设计为多模态、多轮对话。GPU 平衡的矢量化环境、批量解码、课程选择策略和 Critic 预热等系统性技术进一步提升了系统的训练效率和稳定性。最终,经过训练的 VLA 模型能够通过优化预期奖励来生成可行的动作,从而成功执行各种操作任务。
Robotic Process Reward Model
奖励模型作为下一个标记预测。传统的机器人强化学习常常受到奖励稀疏的困扰,通常仅在任务完成时提供二进制信号。我们利用预训练视觉语言模型的自回归特性,将奖励模型重新表述为下一个标记预测问题。给定状态和动作的轨迹,机器人过程奖励模型 (RPRM) 可以预测成功动作序列的可能性。训练目标是最大化有希望的动作标记的对数似然性,并由指示任务完成进度的伪奖励信号加权:
自主伪奖励标签生成。为了在无需大量人工标记的情况下有效地训练机器人过程奖励模型,我们开发了一套自主标签生成流程,可以从成功的轨迹中创建高质量的伪奖励标签:(1) 里程碑分割:我们从专家演示和之前的模型运行中收集了包含各种成功轨迹的数据集。我们根据夹持器打开度的显著变化将轨迹分割成子任务,因为这些变化通常标志着某个功能步骤的完成。(2) 进度标记:在每个分割的子任务中,我们识别机器人末端执行器速度接近于零的关键帧。这些点通常对应于稳定状态或细粒度运动的完成。我们将正向伪奖励分配给指向这些关键帧的 VLA 动作序列。
最终奖励是黄金稀疏奖励与机器人过程奖励模型预测奖励的直接总和。我们的实证分析表明,这种方法显著加快了学习速度,同时与实际任务成功率保持了高度相关性。