blackmanba_084b

IP属地：湖北

A3C 原理解析
其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization）（一）算法原理[https://www.j...

402 0 0
DQN 系列算法
一、 DoubleDQN 相当于把不同的DQN代码进行融合得到的效果随着游戏的进行，期望的 Q 会越来越大，不利于网络训练。我们看下 DQ...

40 0 0

DQN（Deep Q-Network）原理即代码分析
前面说了 PPO 算法，下面一鼓作气，把其他的相关的强化学习也一并学习下。这里还是给出我学习的一些视频链接视频链接：不愧是顶会收割机！迪...

877 0 0
PPO(Proximal Policy Optimization）（二)代码解析
先分享下代码地址：PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learn...

41 0 0
PPO(Proximal Policy Optimization）（一）算法原理
之前在学习大模型的时候学习过 PPO 算法，但是当时也没有来得及对该算法进行梳理，因此原理也基本忘了差不多了。现在在做具身算法，强化学习...

431 0 0
H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(二)
根据前一篇博客的介绍H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Mani...

21 0 0
H-RDT(H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation) 代码及模型阅读(一)
这两天看了H-RDT模型，该模型由地平线机器人实验室与清华大学计算机系朱军团队联合提出，在计算机视觉与模式识别领域顶级会议CVPR 2025举...

748 0 0

Pi0-FAST: 论文及代码解析(FAST: Efficient Action Tokenization for Vision-Language-Action Models) (四)
前面文章已经把openpi论文及代码解析(A Vision-Language-Action Flow Model for General Rob...

871 0 0
openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Control) (三)
接着前面说到了优化器openpi论文及代码解析结束(A Vision-Language-Action Flow Model for Genera...

472 0 0