blackmanba_084b - 简书

发简信

blackmanba_084b

21
关注
220
粉丝
91
文章
202161

字数
348

收获喜欢
35

总资产

IP属地：宁夏

blackmanba_084b

GR-RL
最近调研写基于VLA结合强化学习的文章，这边看到了字节跳动基于强化学习完成机器人携带穿戴的任务，感觉还是比较惊艳，里面也是加入了稀疏的离线强化学习. 先给出论文的地址：...

23 0 0
blackmanba_084b

DDPG && TD3强化学习算法
DDPG:“DQN 的连续动作版 + Actor-Critic”。 TD3因为在GR-RL模型当中提到了TD3算法，这里我们将TD3算法原理做一个简单了解。一、思想用一...

6 0 1

blackmanba_084b

openpi-0.6
最近看了openpi-0.6*相关论文，为了能更好的将学习到的知识做一次记录，在本篇博客我将会把我对论文的理解记录下来：① paper：π*0.6: a VLA that ...

40 0 0
blackmanba_084b

PPO vs DPO vs GRPO vs DAPO
前面已经说了PPO(Proximal Policy Optimization）（一）算法原理[https://www.jianshu.com/p/f1283edebacb]，...

49 0 0
blackmanba_084b

openpi-0.5论文及原理讲解
接着openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (一)[http...

393 0 0
blackmanba_084b

A3C 原理解析
其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization）（一）算法原理[https://www.jianshu.com/p/f1...

748 0 0
blackmanba_084b

DQN 系列算法
一、 DoubleDQN 相当于把不同的DQN代码进行融合得到的效果随着游戏的进行，期望的 Q 会越来越大，不利于网络训练。我们看下 DQN 以及 DoubleDQN ...

571 0 0

blackmanba_084b

DQN（Deep Q-Network）原理即代码分析
前面说了 PPO 算法，下面一鼓作气，把其他的相关的强化学习也一并学习下。这里还是给出我学习的一些视频链接视频链接：不愧是顶会收割机！迪哥精讲强化学习4大主流算法：P...

2338 0 0
blackmanba_084b

PPO(Proximal Policy Optimization）（二)代码解析
先分享下代码地址：PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learning/blob/main/8...

536 0 0
blackmanba_084b

PPO(Proximal Policy Optimization）（一）算法原理
之前在学习大模型的时候学习过 PPO 算法，但是当时也没有来得及对该算法进行梳理，因此原理也基本忘了差不多了。现在在做具身算法，强化学习还是要重新捡回来，这里又需要...

1054 0 0
blackmanba_084b

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(二)
根据前一篇博客的介绍H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型...

45 0 0
blackmanba_084b

H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(一)
这两天看了H-RDT模型，该模型由地平线机器人实验室与清华大学计算机系朱军团队联合提出，在计算机视觉与模式识别领域顶级会议CVPR 2025举办的RoboTwin双臂机器人...

1288 0 0

blackmanba_084b

Pi0-FAST: 论文及代码解析(FAST: Efficient Action Tokenization for Vision-Language-Action Models) (四)
前面文章已经把openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (一)...

1256 0 0
blackmanba_084b

openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (三)
接着前面说到了优化器openpi论文及代码解析结束(A Vision-Language-Action Flow Model for General Robot Control...

1265 0 0
blackmanba_084b

openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (二)
之前把openpi的基础背景进行梳理, openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot...

1405 0 0
blackmanba_084b

openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (一)
目前一说到具身算法不得不提两种经典模型一个是rdt模型一个是pi0模型, rdt模型在之前的博客介绍过了RDT-1B: a Diffusion Foundation Mode...

3359 0 1
blackmanba_084b

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation - 如何训练自己数据集
这段时间咱们得机器人已经做得差不多了，我们需要基于自己采集的数据进行模型训练，趁着数据还没有采集出来，我先将一些说明进行梳理。一、数据收集首先收集hdf5相关数据集...

1000 0 0

blackmanba_084b

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文及代码总结(二)
先给出代码的git地址: https://github.com/thu-ml/RoboticsDiffusionTransformer[https://github.com/...

1495 0 0
blackmanba_084b

RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation 论文及代码总结(三)
四、数据处理模块该模块需要看两处代码分为别hdf5_vla_dataset.py[https://github.com/thu-ml/RoboticsDiffusionTr...

1027 0 0

个人介绍

想做咸鱼