lec7 讲了Q-learning及其在应用中可能面临的不收敛问题,lec8的目标是能逐步克服Q-learning的问题,因此进一步提出DQN及其变体。
课程内容:
- 在Q-learning中使用深度网络
- 一个更普遍意义的Q-learning 算法 - DQN
- 实际中提升Q-learning的算法-DDQN
- 连续动作空间的Q-learning 方法
online Q-learning的问题
- Q-network 不收敛
Q-learning的更新方式并不是梯度下降,即使形式上看着像。
-
online收集的transition数据并不是相互独立的
online更新每次都只收集相邻的四个,可以使用actor-critic当中并行方式来解决。
如何解决这两个问题
第二个样本不独立的问题,除了用并行的方式也可以用Buffer的方式来解决。
2.1 Replay buffer
2.2 Target net & Deep Q-learning
对于第一个不收敛的问题,引入一个target net来解决。
2.3 一些小的改进
2.4 泛Q-learning(general view of Q-learning)
Q-learning 的改进
3.1 Q-net 是否估计的准确?
Q-net通常是高估的
3.2 Q-net 高估的一个解释
3.3 double deep Q learning
3.4 Muti-step returns