这两天看了H-RDT模型，该模型由地平线机器人实验室与清华大学计算机系朱军团队联合提出，在计算机视觉与模式识别领域顶级会议CVPR 2025举办的RoboTwin双臂机器人竞赛中一举斩获真机赛冠军（一等奖第一名），并在仿真赛中荣获亚军（一等奖第二名）。因为看到该模型敢和RDT尤其pi0直接对比，效果还是很不错的。因此有空详细的去了解，并和作者加了联系方式，作者还是很nice的。下面就让我好好回顾下这篇论文：

一、论文阅读

1. 摘要

机器人操作的模仿学习面临一个根本性挑战：大规模、高质量的机器人演示数据稀缺。最近的机器人基础模型通常在跨体机器人数据集上进行预训练以扩大数据规模，但由于不同机器人实体的形态和动作空间存在多样性，统一训练面临重大限制。在本文中，我们提出了H-RDT（从人类到机器人的扩散Transformer），这是一种利用人类操作数据来增强机器人操作能力的新方法。我们的核心见解是，带有配对3D手部姿态标注的大规模第一视角人类操作视频提供了丰富的行为先验，这些先验捕捉了自然的操作策略，有助于机器人策略学习。我们引入了两阶段训练范式：

在大规模第一视角人类操作数据上进行预训练；
使用模块化动作编码器和解码器在特定机器人数据上进行跨体微调。基于具有20亿参数的扩散Transformer架构，H-RDT使用流匹配的方式拟合复杂动作分布

动作编码器和解码器组件的模块化设计，通过高效的微调，能够实现从统一的人类肢体动作到多样化机器人平台的有效知识迁移。涵盖模拟和现实世界实验、单任务和多任务场景以及少样本学习和鲁棒性评估的广泛评估表明，H-RDT 优于从头开始训练的方法和现有的最先进方法（包括 $(\pi_{0}$ ) 和 RDT），在模拟实验和现实世界实验中，相比从头开始训练分别实现了13.9% 和 40.5% 的显著提升。这些结果验证了我们的核心假设，即人类操作数据可以作为学习双足机器人操作策略的有力基础。

2. 引言

专门的动作策略推动->ACT、扩散策略、3D扩散策略，以及视觉-语言-动作（VLA）模型->RT-2、OpenVLA、RDT、 $\pi_{0}$ , $\pi_{0.5}$ 这些方法面临着根本性的数据收集挑战。机器人演示数据在很大程度上依赖于遥操作, 这需要昂贵的设备和熟练的操作员，而像通用操作接口和动作捕捉设置这样的先进数据收集系统则受到复杂基础设施要求和不一致数据质量的影响，从而限制了可扩展性。

当前的VLA模型通常在Open X-Embodiment和AgiBot World Colosseo等机器人数据集上采用跨形态预训练。这种方法面临两个关键限制：不同机器人形态的多样化结构和动作空间使得统一训练颇具挑战，而且现有机器人数据集规模有限，不同收集设置下的数据质量也参差不齐。这些限制从根本上制约了通用机器人操控所需的数据可用性和泛化能力。

相比之下，人类的操作行为构成了一个庞大且易于获取的演示数据宝库。近年来，出现了带有详细手部姿态标注的大规模第一视角视频数据集，例如EgoDex，其中包含829小时的操作视频，这为学习丰富的行为先验提供了前所未有的机会。人类演示自然地捕捉了物体的可用性、操作策略和任务分解模式，这些有可能成为机器人学习的强大归纳偏置。最近的研究已经开始探索这一方向：EgoMimic利用第一视角视频对人类和机器人数据进行协同训练，而Humanoid Policy（HAT）则使用可微分重定向来进行人类-类人机器人行为建模。

本文介绍了H-RDT（人机扩散Transformer），这是一种新颖的方法，它系统地利用大规模第一视角人类操作数据来增强机器人的操作能力。该方法侧重于三个具体方面：

数据稀缺性：我们利用大量带有3D手部姿态标注的人类操作视频，提供丰富的行为先验，以捕捉自然的操作策略、物体功能以及任务分解模式。
跨体迁移：我们开发了一种模块化的Transformer架构，配备专门的动作编码器和解码器，能够在保留所学操作知识的同时，实现从人类演示到各种机器人平台的有效知识迁移。
训练效率：我们采用具有流匹配的两阶段训练模式，首先在大规模人类数据上进行预训练，然后进行跨体微调，从而在整个过程中实现稳定且高效的策略学习。

该论文贡献如下：

一个新颖的框架，用于系统性地利用大规模第一视角人类操作数据来增强机器人策略学习
一种扩散Transformer架构，配备模块化的人机转移组件，能够实现有效的跨实体知识转移
一项全面的实证验证，表明在模拟和现实场景中，其性能持续优于最先进的方法
深入了解人类操作先验知识对于样本高效的机器人学习的价值，尤其是在少样本场景中

3 相关工作

3.1 基于学习的机器人操作

模仿学习的最新进展是由专门的动作策略驱动的，包括ACT、扩散策略和3D扩散策略。这些动作策略侧重于学习操作任务的直接视觉运动控制，通过先进的序列建模和生成方法在灵巧操作上显示出有希望的结果。Vision-Language-Action（VLA）模型的出现代表了向更通用的机器人系统的重大范式转变。最近的VLA方法包括RT-2、OpenVLA、机器人扩散Transformer（RDT）.其他视觉-语言-动作（VLA）模型。这些模型在统一架构中融合了视觉理解、语言理解和动作生成，通过大规模数据集实现了指令遵循能力和跨具身泛化。该论文在RDT架构的基础上，引入了新颖的结构和训练方法创新。具体而言，采用流匹配作为训练范式，与传统的扩散训练相比，它具有更高的稳定性和效率。更重要的是，引入了新颖的人机知识转移机制，该机制能够在人类操作数据上进行大规模预训练，随后进行跨实体微调。

3.2 从第一人称视角人类操作中学习

大规模第一视角数据集包含数十到数百小时的人类-物体交互记录，但缺乏灵巧操作学习所需的精确3D手部姿态标注。EgoDex通过提供提供了829小时（33.8万段）的第一视角视频，包含每帧的3D手部姿态和语言描述填补空缺。EgoMimic和类人机器人策略（HAT）率先使用第一视角人类视频，但两者的规模都较为有限：EgoMimic基于2000个人类演示样本进行训练，HAT基于27000个演示样本——这比H-RDT所使用的338000条轨迹（829小时）小了几个数量级。此外，这些研究针对的是单一的类人机器人形态；

EgoMimic在协同训练期间需要配对的机器人数据，而HAT的重定向则以类人机器人运动学为前提。相比之下，H-RDT将大规模人类预训练与特定机器人的微调分离开来，并通过模块化动作适配器推广到任意机器人形态。其他研究则探索了数据增强技术和人类-机器人配对数据收集。

4 方法

在本节中，我们介绍了H-RDT（人机扩散Transformer），这是一种利用大规模人类操作数据来增强机器人策略学习的新方法。我们将机器人操作表述为一个条件序列生成问题，其目标是学习一项策略 $\pi_{\theta}$ ，它能在给定多模态观测的情况下生成动作序列 $a_{t: t+H}={a_{t}, a_{t+1}, ..., a_{t+H-1}}$ 。形式上，在每个时间步t，智能体观察视觉观测来自一个或多个RGB相机的观测 $o_{t} \in \mathbb{R}^{H ×W ×3}$ ，本体感受状态 $s_{t} \in \mathbb{R}^{d_{s}}$ 编码当前机器人状态和夹持器状态，语言指令 $l \in \mathbb{R}^{L ×d_{lang }}$ 描述任务。该策略输出一系列未来动作 $a_{t: t+H}$ ，其中每个动作 $a_{i} \in \mathbb{R}^{d_{a}}$ 代表在预测范围H内的机器人控制命令（例如，关节位置、末端执行器位姿）。为了实现通用策略，需要大规模的模仿学习，而特定实体的相关数据却很稀缺。

为解决这一问题，当前的方法主要转向利用来自多种异构实体的演示进行训练。然而，由于远程操作成本高昂，数据的总规模仍然有限。

另一种方法是利用以自我为中心的人类操作数据，这有可能从统一的人类身体中提供数据，其操作先验可在不同的机器人平台间迁移，从而减少从异构身体中学习的冲突，同时实现低成本的数据获取。然而，这种方法面临三个主要挑战：

首先，现有方法的规模有限，人类操作数据也有限，无法充分利用人类行为先验在机器人学习中的潜力。
其次，人类和机器人之间存在显著的身体差异，包括末端执行器类型和正向运动学，这使得很难有效地将操作知识从人类演示转移到目标机器人。
第三，如何构建一个基础模型，通过在机器人特定数据上进行微调，能够高效适配多种不同的机器人形态，这一问题在很大程度上仍未得到解决。

4.1 概述

为了应对上述挑战，该论文提出了HRDT（人类到机器人扩散Transformer），如图2所示。这是一种基于Transformer的架构，通过结构化范式进行训练，以从人类数据中学习。为了应对人类与机器人之间的具身不匹配问题，H-RDT构建了一个共享的动作表征空间，以连接人类和机器人的具身，并通过采用两阶段训练范式，满足了可扩展的跨具身部署需求。最后，H-RDT利用流匹配和可扩展的基于Transformer的架构，实现稳定且富有表现力的策略学习。

图2

4.2 人类动作表征设计

为了应对人类与机器人之间身体结构差异的挑战，当前的方法要么将光流用作动作的过渡表示，这种方法仅提供高层级的物体运动指导，缺乏明确的动作参数，且需要额外的策略网络将光流转换为特定于机器人的控制；要么需要在人类姿态和目标机器人之间进行详细的重定向，这限制了学习策略的适用性。为此，我们利用详细的3D手部姿态，其中动作被表示为紧凑的48维向量，这些向量捕捉了关键的双手灵巧操作信息：

双侧手腕姿态（双手的位置（3D）和方向（6D））：18个维度，与机器人末端执行器姿态相同
指尖位置（双手所有手指的3D坐标）：30维

这种表示方法可作为大多数当前由末端执行器位姿控制的机器人动作空间的超集，从而确保在不同运动学结构间实现有效的知识蒸馏。这种结构化编码明确表示了基本的操作动力学和空间关系，这对可泛化的操作至关重要，它通过聚焦于抓握配置、方向约束和相对位置动力学等可普遍迁移的特征，有效减轻了实体差异。

4.3 两阶段训练范式

从人类数据中学习机器人策略的并行工作大多需要人类与目标实体之间严格的配对关系，因此在部署过程中无法适应多种实体。为解决这一问题，该论文采用精心设计的两阶段训练范式，在充分利用人类演示数据优势的同时，实现有效的跨实体机器人部署。与传统的扩散目标不同，H-RDT采用流匹配进行动作生成，具有更出色的训练稳定性和推理效率。

第一阶段：人类数据预训练
在第一阶段，该论文使用完整的EgoDex数据集，以48维人类手部动作表征对H-RDT进行训练。具体而言，利用完整的EgoDex数据集, 在涵盖194项不同操作任务的33.8万多条轨迹上`训练模型，该数据集全面涵盖了人类操作策略、物体交互以及双手协调模式。

第二阶段：跨具身微调
为快速适配预训练模型以实现跨具身部署，第二阶段通过选择性权重迁移和模块化重新初始化，使预训练模型适应特定的机器人具身：视觉编码器、语言编码器和Transformer主干网络的权重从预训练模型迁移而来，保留了从人类演示中学习到的多模态表征和操作先验。状态适配器 $MLP_{state }$ 、动作适配器 $MLP_{action}$ 和动作解码器被完全重新初始化，以处理目标机器人的动作空间（例如，带有双臂夹爪的7自由度机械臂为14维）。这种选择性迁移策略确保了从人类演示中学习到的操作语义得以保留，同时能够适应不同的机器人形态。模块化设计允许为每个目标实体从头重新训练动作编码器和解码器。在不影响已学习的视觉-语义表征的情况下进行具身操作。

4.4 H-RDT架构

用于动作生成的流匹配与传统的扩散训练不同，H-RDT采用流匹配进行动作生成，与传统的扩散建模相比，它具有更优异的训练稳定性和推理效率。流匹配通过学习一个向量场，借助连续归一化流将简单的噪声分布转换为目标动作分布。这里可以参考我写的这篇文章openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (一), 给定一个目标动作序列 $a_{t: t+H}^{*}$ ，我们构建一个直线流动路径：

$a_{\tau}=\tau \cdot a_{t: t+H}^{*}+(1-\tau) z$

其中 $z$ ~ $N(0, I)$ 是高斯噪声， $\tau \in[0,1]$ 对流动时间进行参数化。神经网络 $v_{\theta}$ 学习预测向量场：

$\begin{array} {r}{\mathcal {L}_{FM}=\mathbb {E}_{\tau ,z,a^{*},c}\left[ \| v_{\theta }(a_{\tau },\tau ,c)-(z-a_{t:t+H}^{*})\| ^{2}\right] (2)}\end{array}$

其中 $c={o_{t}, s_{t}, 1}$ 表示条件信息，包括多视图RGB观测 $o_{t}$ 、本体感受 $s_{t}$ 和语言指令 $l$ 。在推理过程中，我们通过使用具有确定性步骤的ODE求解器对学习到的向量场进行积分来采样动作。

网络架构
H-RDT 采用统一的 Transformer 架构，包含五个模块化组件：视觉编码器、语言编码器、模块化动作编码器、Transformer 骨干网络和模块化动作解码器.

视觉与语言编码器
RGB 观测通过预训练视觉骨干网络DinoV2和SigLIP编码，随后通过 MLP 适配器投影到维度为 $d_{model}$ 的嵌入空间；文本指令通过预训练 T5-XXL 语言模型嵌入，再通过类似的适配器投影
模块化动作解码器
本体感受状态 $s_{t}$ 以及嘈杂的动作序列 $a_{t: t+H}^{\tau}$ 通过模块化方式进行编码,MLP适配器：
$h_{state }= StateAdapter \left(s_{t}\right) \in \mathbb{R}^{d_{model }}$
$h_{action }= ActionAdapter \left(a_{t: t+H}^{\tau}\right) \in \mathbb{R}^{H × d_{model }}$
其中 $a_{t: t+H}^{\tau}$ 表示流程中的带噪声动作序列, 流匹配训练中使用的流时间T，H表示预测范围。
Transformer 骨干网络
H-RDT 采用 LLaMA-3 架构风格，配备 RMSNorm 层归一化和 SwiGLU 激活函数。每个 transformer 块通过自注意力处理拼接后的输入 $x=Concat(h_{state }, h_{action })$ ，同时图像和语言特征通过单独的交叉注意力注入，以避免模态不平衡。流时间 $T$ 被映射到时间步嵌入中，并通过 AdaLN 进行整合。
模块化动作解码器
预测的隐藏状态 $h_{action }$ 通过模块化MLP进行解码：

$\hat{a}_{t: t+H}= ActionDecoder \left(h_{action }, t_{emb}\right)$

其中， $t_{cmb}$ 代表流匹配的时间步嵌入，解码器在目标机器人的动作空间中输出动作。在跨实体微调期间，模块化动作编码器和解码器会重新初始化。

5. 实验

5.1 实验设置

该方法全面的实验，以评估HRDT在模拟和现实场景中的有效性。评估涵盖四个关键维度：
（1）在各种操作场景中的单任务和多任务性能；
（2）在不同机器人平台上的跨形态泛化能力；
（3）通过领域随机化实现的环境鲁棒性；
（4）在有限现实演示的少样本学习中的样本效率。

仿真环境
使用RoboTwin 2.0平台，这是一个全面的双臂操作基准，包含多种家庭任务。该平台提供两种评估模式：简单模式（具有整洁的桌面环境）和困难模式（具有领域随机化，包括3厘米的桌子高度变化、随机背景、光照变化以及物体杂乱摆放）。
机器人具身化
为了展示跨具身迁移能力，我们在多个方面对H-RDT进行评估仿真和现实环境中的机器人平台。仿真实验涵盖两种不同的形态：Aloha-Agilex-1.0和双臂Franka-Panda。现实世界验证使用三种不同的平台：双臂ARX5、Aloha-Agilex-2.0（双臂Piper）以及UR5 + UMI配置。训练配置：不同实验设置的详细训练配置见附录C。
基线与对比方法
我们将H-RDT与几种最先进的方法进行了比较：
- RDT：机器人扩散Transformer基准模型
- $\pi_{0}$ ：最先进的视觉-语言-动作模型
- 无人类数据：我们未经过人类数据预训练的模型

5.2 真实世界验证

我们在三个不同的真实世界机器人平台上对H-RDT进行了评估，以验证其在实际部署场景中的跨实体迁移能力和稳健性。所有真实世界实验均采用多任务训练。Aloha-Agilex-2.0实验我们在Aloha-Agilex-2.0平台（双臂Piper）上通过两项双手动操作任务对H-RDT进行了评估。

任务1：折叠毛巾这项可变形物体操作任务通过连续的折叠操作，测试模型处理非刚性材料的能力。
任务2：杯子到杯垫的放置这项空间推理任务要求模型根据物体位置自动选择合适的手：左侧的杯子必须用左手抓取，而右侧的杯子必须用右手抓取。

表1

表2

这两项任务均采用基于子任务的评分系统，用于评估渐进式完成程度，最终评估则侧重于整体成功率。表1和表2展示了不同方法的性能细分，每项任务均通过25次试验进行评估。在叠毛巾任务中（表1），H-RDT的完全成功率达到52%，相比之下，RDT为40%，从头开始训练的模型为0%。没有人类数据的模型未能实现任何完全折叠，仅能完成部分低技能水平下的成功，而RDT和H-RDT则展现出更复杂的操作能力。杯垫任务（表2）显示，H-RDT的完全成功率达到64%，而RDT为28%，不使用人类数据训练的模型为20%。H-RDT的失败率最低，部分成功的情况也更少，这表明在需要通过空间推理来选择合适手臂的任务中，其性能更为稳健。

总体而言，在两项双手任务中，H-RDT的平均成功率达到58%，相比之下，RDT的平均成功率为34%，不使用人类数据进行训练的平均成功率为10%。这表明，人类操作先验对于解决包括可变形物体操作和空间推理任务在内的多种协调挑战具有有效性。

双臂ARX5少样本实验为了全面验证人类操作先验的优势，我们设计了一项具有挑战性的真实世界实验，该实验结合了大量的任务多样性和数据稀缺性：使用双臂ARX5机器人系统完成113项不同的取放任务，每项任务仅提供1-5次演示。这种多任务少样本设置专门用于测试样本效率的极限，并凸显人类行为先验的价值。

表3

EgoDex预训练数据集包含大量与这些任务相似的抓取放置操作模式，提供了关于如何执行此类操作的丰富先验知识。在这些具有挑战性的条件下——即使是像 $\pi_{0}$ 这样的最先进模型也难以很好地适配有限的演示轨迹——H-RDT的人类操作先验能够带来显著的性能提升。H-RDT的平均成功率为41.6%，相比之下，RDT为16.0%， $\pi_{0}$ 为31.2%，不含人类先验的H-RDT（H-RDT w/o human）为17.6%，这表明在数据有限的场景中，人类操作先验对于少样本学习具有重要价值。

双UR5 + UMI实验我们在双UR5机器人系统上对H-RDT进行了评估，所用演示数据通过通用操作界面（UMI）收集，这是一个数据收集框架，能够通过手持夹爪实现便携、低成本的人类演示数据收集。评估重点是双手外卖袋放置任务，该任务被分解为四个连续的子任务：右手拾取、右手放置、左手拾取和左手放置。表4展示了不同方法在每个子任务上的成功率，每项评估均进行了25次试验。

表4

H-RDT在所有子任务中均表现出持续优异的性能，平均成功率为58.0%，而RDT为29.0%， $\pi_{0}$ 为31.0%，从头开始训练为16.0%。结果显示，抓取操作有显著改进（右手和左手分别为64%和60%），且比基线方法有27-42%的绝对提升，这体现了人类操作先验知识在双肢协调中的价值。

5.3 RoboTwin 2.0的仿真结果

表8

单任务性能 我们在RoboTwin 2.0基准测试的13个代表性操作任务上评估单任务性能。每个任务都在clean环境中收集的50个演示样本上进行训练，并在两种模式下进行评估：简单模式（与训练条件匹配的清洁桌面环境）和困难模式（具有领域随机化的挑战性环境，包括光照变化、物体杂乱以及桌子高度变化）。所有任务的详细结果见表8。H-RDT在简单模式下的平均成功率最高，达到68.7%，在困难模式下为25.6%，相比现有方法有显著提升。H-RDT在简单模式和困难模式下均比从头开始训练（无人类参与）高出8.4%，这验证了人类操作预训练的有效性。

表5

多任务性能 我们在RoboTwin 2.0的45项任务上进行了多任务实验，训练所使用的数据是在领域随机化（困难模式数据）下收集的约2250个演示样本。表5展示了在困难模式下评估的10项代表性任务子集的结果。在多任务场景中，H-RDT的平均成功率达到87.2%，显著优于RDT（28.8%）、 $\pi_{0}$ （48.4%）和不含人类的H-RDT（67.2%）。与从头开始训练相比，H-RDT实现了20.0%的绝对提升，这一提升明显大于在单任务场景中观察到的提升，表明人类操作预训练在同时学习多种不同任务时能带来更大的优势。

图3

表6

跨具身本体泛化 为了进一步验证 H-RDT 的跨具身本体迁移能力，我们在仿真环境中使用两种不同的机器人具身进行了多任务实验。我们采用上述相同的实验设置，对 AlohaAgilex-1.0 和 Franka-Panda 平台进行了评估。图 3 展示了这些平台的性能对比。H-RDT在两种实体上均表现出优异性能，在Aloha-Agilex-1.0上达到87.2%，在Franka-Panda上达到62.9%，显著优于这两个平台上的基线方法。Franka-Panda的详细逐项任务结果见附录中的表6。在不同机器人形态上的持续改进验证了我们模块化动作编码器设计的跨实体泛化能力。

分析与讨论
人类预训练的影响：H-RDT相比无人类数据的基线模型持续改进，在所有实验设置中，都验证了我们的核心假设，即人类操作数据提供了有价值的归纳偏差。这种优势在少样本的现实世界场景中最为明显，在这些场景中，人类关于物体功能和操作策略的先验知识被证明是至关重要的。

环境鲁棒性：在RoboTwin 2.0困难模式下，通过域随机化处理，H-RDT在具有挑战性的条件下表现出优异性能。该模型能够成功应对包括光照变化、物体杂乱以及桌子高度变化在内的环境差异，且性能持续优于基准方法。
样本效率：在少样本真实世界实验中，HRDT仅通过每个任务1-5个演示样本就能学习的能力显著优于基线模型，这凸显了人类行为先验在降低机器人学习数据需求方面的实用价值。
任务多样性与复杂性：现实世界的实验表明，H-RDT能够应对各种操作挑战，包括可变形物体的操作以及需要空间推理的任务，这体现了其在不同操作复杂度下的多功能性。
跨平台稳健性：我们在模拟和现实环境中进行的综合评估表明，H-RDT在多种机器人载体上均表现出稳健的性能，包括Aloha-Agilex-1.0、双臂Piper、双臂ARX5、双臂Franka-Panda以及双臂UR5+UMI平台。这种跨平台的一致性验证了我们模块化架构设计和人类到机器人知识迁移方法的有效性。**

6. 结论

本文介绍了H-RDT，这是一种新颖的方法，它利用带有3D手部姿态标注的大规模第一视角人类操作视频来增强机器人的操作能力。核心贡献在于证明，丰富的操作知识可以从人类的行为先验中习得，并能适配到各种机器人操作任务中。关键技术创新包括：
（1）模块化Transformer架构，其配备专门的动作编码器和解码器，可实现跨实体适配；
（2）用于稳定高效策略学习的流匹配；
（3）两阶段训练范式，先在人类数据上进行预训练，再在机器人特定数据上进行微调。综合评估表明，与最先进的方法相比，该方法取得了持续改进，这验证了人类操作先验为样本高效的机器人学习提供了强大的归纳偏置。

7. 附录

A.1 单任务性能结果（RoboTwin 2.0 基准测试）
本节提供了在RoboTwin 2.0基准的单任务实验中评估的13项操作任务的全面的逐任务结果。表8展示了所有基线方法在简单和困难两种评估模式下的详细成功率。为了加快单任务实验中的训练速度，我们将三个240×320的视图拼接成一个360×320的输入进行训练，与更高分辨率的设置相比，这可能会导致一定的性能下降。

A.2 Franka-Panda详细结果
本节提供了Franka-Panda机械臂在10项任务子集上的全面逐项结果，这些任务用于主论文中的详细评估。

表6

B. 实现细节
B.1 模型架构

表7

表7提供了HRDT模型架构的关键超参数设置。

B.2 训练配置和数据处理
训练配置：预训练和微调均使用AdamW优化器，学习率为1e-4，权重衰减为0.01，梯度裁剪范数为1.0。我们采用混合精度训练（bfloat16）以提高计算效率，并通过梯度累积来维持有效的批量大小。
数据处理：图像通过196个补丁进行处理以实现视觉编码。语言指令被标记化，最大长度为1024个标记。在预训练期间，我们处理包含338K+条轨迹的EgoDex数据集，该数据集包含48维的人类手部动作。微调则适配目标机器人的动作空间。

B.3 流匹配详情
训练实施：我们在训练过程中采用了带有 $\tau \in[0,0.999]$ 的均匀时间步采样。
推理实现：在推理过程中，我们从高斯噪声 $a_{0} ~ N(0, I)$ 开始，使用确定性常微分方程求解器对学习到的向量场进行积分，该求解器包含5次函数评估，步长为 $\Delta t=1 / 5=0.2$ 。在每一步中，我们将动作更新为 $a_{t+\Delta t}=a_{t}+\Delta t \cdot v_{\theta}(a_{t}, t, c)$ ，以实现实时性能（30Hz控制频率）。

B.4 真实世界任务定义

图4

图4直观展示了我们实验中的真实世界操作任务。

C. 训练配置
本节提供了主论文中描述的所有实验设置的详细训练配置。
C.1 仿真实验
C.1.1 单任务配置

数据：13项任务，每项任务50条清晰轨迹
平台：Aloha-Agilex-1.0
训练：10k步，4块H100 GPU，每块GPU的批处理大小为16
评估：简易模式（清晰场景）和困难模式（域随机化）
C.1.2 多任务配置
数据：45项任务，每项任务包含50条域随机化轨迹
平台：Aloha-Agilex-1.0、Franka-Panda
训练：Aloha为30k步，Franka为10k步，使用4个H100 GPU，每个GPU的批处理大小为32
评估：带域随机化的困难模式，三个摄像头视角

C.2 真实世界实验
C.2.1 双臂ARX5

数据：少样本抓取放置任务，每个任务包含1-5条轨迹，113个任务总计607条轨迹
平台：双臂ARX5
训练：10万步，4个H100 GPU

C.2.2 双臂UR5+UMI平台

数据：双手外卖袋放置任务，100条轨迹
平台：双臂UR5+UMI平台
训练：20k步，8块H100 GPU

** C.2.3 Aloha-Agilex-2.0平台 **

数据：倒水和叠衣服，各50条轨迹
平台：Aloha-Agilex-2.0（双臂Piper）
训练：50k步，8块H20 GPU

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(一)

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(一)

一、论文阅读

1. 摘要

2. 引言

3 相关工作

3.1 基于学习的机器人操作

3.2 从第一人称视角人类操作中学习

4 方法

4.1 概述

4.2 人类动作表征设计

4.3 两阶段训练范式

4.4 H-RDT架构

5. 实验

5.1 实验设置

5.2 真实世界验证

5.3 RoboTwin 2.0的仿真结果

6. 结论

7. 附录

友情链接更多精彩内容

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(一)

一、 论文阅读

1. 摘要

2. 引言

3 相关工作

3.1 基于学习的机器人操作

3.2 从第一人称视角人类操作中学习

4 方法

4.1 概述

4.2 人类动作表征设计

4.3 两阶段训练范式

4.4 H-RDT架构

5. 实验

5.1 实验设置

5.2 真实世界验证

5.3 RoboTwin 2.0的仿真结果

6. 结论

7. 附录

友情链接更多精彩内容

一、论文阅读