CS285 Lecture 8 - Deep RL with Q-Functions(更新中)

lec7 讲了Q-learning及其在应用中可能面临的不收敛问题,lec8的目标是能逐步克服Q-learning的问题,因此进一步提出DQN及其变体。

课程内容:

  1. 在Q-learning中使用深度网络
  2. 一个更普遍意义的Q-learning 算法 - DQN
  3. 实际中提升Q-learning的算法-DDQN
  4. 连续动作空间的Q-learning 方法

online Q-learning的问题

  1. Q-network 不收敛

Q-learning的更新方式并不是梯度下降,即使形式上看着像。

  1. online收集的transition数据并不是相互独立的


    image.png

online更新每次都只收集相邻的四个,可以使用actor-critic当中并行方式来解决。

如何解决这两个问题

第二个样本不独立的问题,除了用并行的方式也可以用Buffer的方式来解决。
2.1 Replay buffer

2.2 Target net & Deep Q-learning
对于第一个不收敛的问题,引入一个target net来解决。

2.3 一些小的改进

2.4 泛Q-learning(general view of Q-learning)

Q-learning 的改进

3.1 Q-net 是否估计的准确?

Q-net通常是高估的

image.png

3.2 Q-net 高估的一个解释

3.3 double deep Q learning

3.4 Muti-step returns

Q-learning对于连续的动作

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容