240 发简信
IP属地:天津
  • Resize,w 360,h 240
    GR-RL

    最近调研写基于VLA结合强化学习的文章, 这边看到了字节跳动基于强化学习完成机器人携带穿戴的任务, 感觉还是比较惊艳, 里面也是加入了稀疏的离线...

  • Resize,w 360,h 240
    DDPG && TD3强化学习算法

    DDPG:“DQN 的连续动作版 + Actor-Critic”。 TD3因为在GR-RL模型当中提到了TD3算法, 这里我们将TD3算法原理做...

    0.2 5 0 1
  • Resize,w 360,h 240
    openpi-0.6

    最近看了openpi-0.6*相关论文,为了能更好的将学习到的知识做一次记录, 在本篇博客我将会把我对论文的理解记录下来:① paper:π*0...

  • Resize,w 360,h 240
    PPO vs DPO vs GRPO vs DAPO

    前面已经说了PPO(Proximal Policy Optimization)(一)算法原理[https://www.jianshu.com/p...

  • Resize,w 360,h 240
    openpi-0.5论文及原理讲解

    接着openpi论文及代码解析(A Vision-Language-Action Flow Model for General Robot Co...

  • Resize,w 360,h 240
    A3C 原理解析

    其实 A3C与前面说的 PPO 算法PPO(Proximal Policy Optimization)(一)算法原理[https://www.j...

  • Resize,w 360,h 240
    DQN 系列算法

    一、 DoubleDQN 相当于把不同的DQN代码进行融合得到的效果 随着游戏的进行, 期望的 Q 会越来越大, 不利于网络训练。我们看下 DQ...

  • Resize,w 360,h 240
    DQN(Deep Q-Network)原理即代码分析

    前面说了 PPO 算法, 下面一鼓作气, 把其他的相关的强化学习也一并学习下。这里还是给出我学习的一些视频链接 视频链接: 不愧是顶会收割机!迪...

  • PPO(Proximal Policy Optimization)(二)代码解析

    先分享下代码地址:PPO_Nogo.py[https://gitcode.com/qq_51399582/Reinforcement-Learn...