blackmanba_084b

IP属地：天津

GR-RL
最近调研写基于VLA结合强化学习的文章，这边看到了字节跳动基于强化学习完成机器人携带穿戴的任务，感觉还是比较惊艳，里面也是加入了稀疏的离线...

20 0 0
DDPG && TD3强化学习算法
DDPG:“DQN 的连续动作版 + Actor-Critic”。 TD3因为在GR-RL模型当中提到了TD3算法，这里我们将TD3算法原理做...

0.2 5 0 1

openpi-0.6
最近看了openpi-0.6*相关论文，为了能更好的将学习到的知识做一次记录，在本篇博客我将会把我对论文的理解记录下来：① paper：π*0...

33 0 0
PPO vs DPO vs GRPO vs DAPO
前面已经说了PPO(Proximal Policy Optimization）（一）算法原理[https://www.jianshu.com/p...

35 0 0
openpi-0.5论文及原理讲解
接着openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Co...

34 0 0
A3C 原理解析
其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization）（一）算法原理[https://www.j...

721 0 0
DQN 系列算法
一、 DoubleDQN 相当于把不同的DQN代码进行融合得到的效果随着游戏的进行，期望的 Q 会越来越大，不利于网络训练。我们看下 DQ...

514 0 0

DQN（Deep Q-Network）原理即代码分析
前面说了 PPO 算法，下面一鼓作气，把其他的相关的强化学习也一并学习下。这里还是给出我学习的一些视频链接视频链接：不愧是顶会收割机！迪...

2224 0 0
PPO(Proximal Policy Optimization）（二)代码解析
先分享下代码地址：PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learn...

536 0 0