240 发简信
IP属地:重庆
  • RL Review part1

    1. Basic Word 累计折扣回报:U(t) = r(t) * gamma * r(t+1) + gamma^2 * r(t+2) + ....

  • RL-DQN Coding Problem

    经验回放类采样一个batch,zip(*)用于将元组解压拆分: DQN的epsilon采用e-greedy方式进行,需要设置epsilon的衰减...

  • Resize,w 360,h 240
    DQN算法实践之速通超级马里奥

      作为强化学习(Reinforce Learning,RL)的初学者,常常想将RL的理论应用于实际环境,以超级马里奥为例,当看着自己训练的AI...