最近调研写基于VLA结合强化学习的文章, 这边看到了字节跳动基于强化学习完成机器人携带穿戴的任务, 感觉还是比较惊艳, 里面也是加入了稀疏的离线强化学习. 先给出论文的地址: GR-RL: Going Dexterous and Precise for Long-Horizon Robotic Manipulation
一、 存在问题
当前的VLA政策在实际部署中仍在两个基本方面存在不足:
(1) 精准灵活性——对可变形物体的毫米级控制仍未得到解决。
(2) 长时稳健性——误差会随着步骤积累,当与高精度灵活操作结合时,情况会更糟
(3) 次优的人类演示(在极端精密和灵巧的操作场景中,人类演示者会放慢速度、犹豫不决,并向策略引入带有噪声的次优演示);
(4) 演示与推理不匹配(为了实现平滑的推理和控制,通常会对预测轨迹进行后平滑处理, 异步滚动时域控制, 以及其他控制级优化。这些系统级优化方法对于基于学习的策略的平滑执行是必要的,但不可避免地会导致模型训练与推理之间的不匹配)
二、模型框架

我们的起点是GR-3,这是一个从互联网数据、机器人轨迹和人类演示中训练出来的大规模VLA策略。尽管它具有很强的泛化能力,但在精度、灵活性和长周期鲁棒性至关重要的情况下,GR-3会失效。我们观察到存在两个关键瓶颈:
该文提出了用于长时程灵巧精确操作的GR-RL。GR-RL采用了多阶段强化增强训练流程,该流程对次优和不匹配的人类演示进行过滤、增强和强化。
第一步: 没有直接对整个人类演示数据集进行行为克隆,而是通过克隆过滤后的轨迹来初始化基础的GR-RL VLA策略, 即利用离线强化学习在成功和失败的轨迹上训练一个评估模型(评估值在0~1)。在每个动作epoch结束时会有一个稀疏奖励,仅选择那些对进展有积极贡献的转换,而丢弃无贡献的轨迹。我们采用分布式评论模型,并观察到在离线稀疏奖励场景下,它们的性能要稳健得多。
第二步: 从离线预训练的checkpoint进行初始化,我们执行在线强化学习,以进一步探索并修复基础策略的失败模式。特别是,我们通过学习将去噪过程引向高回报区域来实现这一点。
第三步: 通过镜像机器人的动作和观察结果,并配合翻转的文本描述来增强机器人的动作。这种方案显著提高了我们策略的整体成功率和泛化能力。
三、 训练方案
人类示范是次优且带噪音的, 有以下原因:
数据采集
- 犹豫
- 犯错
- 动作不一致
推理时
- 推理的后处理导致训练和推理的不一致
1. 利用学习到的任务进行评估器进行数据过滤
为了识别并过滤掉次优动作, 采用离线强化学习来学习任务进度,使用的是TD3+BC(Behavior Cloning)行为克隆的方案

奖励公式如下:
上述公式中
因为大多数收集的数据都是成功的, 论文对每个演示中标记重试关键帧, 并通过事后视角创建更更多失败的轨迹。假设在成功轨迹中, 帧
被标记为
重试关键帧, 那么除了原始的成功轨迹外,还可以扩充个失败的轨迹
;
通过对成功和失败的数据进行时序差分学习, Critic 可以充当
任务进度评估器, 在获得任务进度模型后, 评估, 并计算其分类分布的均值作为数据集中所有转换的进度
, 公式如下:
预测进度的一个示例如下图所示。可以观察到,当遥操作员发生失误时,进度会出现一次突然下降。我们将时间步 (t) 的样本 定义为次优(suboptimal),如果在序列
中存在一次超过某个阈值
的价值/进度下降;并将所有这类次优样本从用于策略学习的数据集中剔除。随后,我们便可以使用过滤后、更高质量的数据集,通过行为克隆(behavior cloning)直接训练策略
。


2. 基于数据增广的模仿学习
在离线训练阶段,我们采用了一种简单却有效的形态对称性增强范式,这进一步提升了策略性能。该增强范式利用了我们双任务设置中的形态对称性。对于图像观测,我们将所有图像水平翻转,然后交换左手腕和右手腕的图像。本体感受状态
和动作
中的所有变换都通过世界坐标系中的镜像对称性进行转换,然后再转换回手腕局部坐标系。我们还相应地翻转语言指令中的空间描述,例如,将“左边的孔”改为“右边的孔”。从经验来看,这种对称性数据增强能够有效提升策略的性能。
3. 用于策略部署对齐的在线引导
在部署分块策略时,系统级后处理通常被用于确保机器人运动的平滑性,例如时间集成和滚动时域控制。然而,这些优化技巧会导致训练和部署之间出现不匹配:策略在训练期间看到的内容(原始动作)与在部署期间实际执行的内容(优化后的动作)不同。在灵巧精确的操作场景中,这种不匹配变得不可忽视。为了适应这种差异,我们发现模型通过具有对齐动作的闭环在线交互来探索和改进自身至关重要。
在长期、精确的操作任务中执行在线强化学习仍然并非易事,尤其是在探索方面。由于该任务需要毫米级的精度才能完成,因此在手腕姿态或关节位置上添加噪声很难取得成功。相反,我们在潜在空间中进行结构化探索,并引导经过训练的流策略。具体来说,我们在共享的VLM主干之后添加了一个噪声预测器,以预测动作DiT的初始噪声
。
中的可训练参数数量为5150万。为了避免从离线训练分布之外的噪声生成任意动作,当噪声预测器的输出与原始正态分布的偏差超过特定阈值β时,我们会对其进行惩罚。还在噪声空间
上提取一个Q函数,以避免在策略优化过程中通过流模型进行反向传播。原始动作空间
中的critic通过标准TD3进行训练。噪声转换器和噪声空间中critc的在线训练目标如下:
与原始实现不同,为了在蒸馏时确保对噪声空间有良好的覆盖,我们以0.5的概率(w.p. 0.5)从原始正态分布中采样输入噪声,否则从噪声预测器中采样。为实现样本高效的离线到在线适配,我们维护一个离线策略缓冲区和一个在线策略缓冲区,并从这两个缓冲区中均匀采样批次数据。训练开始前,我们利用离线训练检查点的在线轨迹来预热离线策略缓冲区,这与热启动强化学习类似。我们特意选择不将远程操控轨迹混入缓冲区,以防止策略在不匹配的动态特性上进行训练。在线策略缓冲区仅存储由最近两个检查点生成的轨迹,过时的数据则被推入离线策略缓冲区。


