登录注册写文章

CS285 Lecture 8 - Deep RL with Q-Functions（更新中）

一边挖坑一边填坑

CS285 Lecture 8 - Deep RL with Q-Functions（更新中）

lec7 讲了Q-learning及其在应用中可能面临的不收敛问题，lec8的目标是能逐步克服Q-learning的问题，因此进一步提出DQN及其变体。

课程内容：

在Q-learning中使用深度网络
一个更普遍意义的Q-learning 算法 - DQN
实际中提升Q-learning的算法-DDQN
连续动作空间的Q-learning 方法

online Q-learning的问题

Q-network 不收敛

Q-learning的更新方式并不是梯度下降，即使形式上看着像。

online收集的transition数据并不是相互独立的

image.png

online更新每次都只收集相邻的四个，可以使用actor-critic当中并行方式来解决。

如何解决这两个问题

第二个样本不独立的问题，除了用并行的方式也可以用Buffer的方式来解决。
2.1 Replay buffer

2.2 Target net & Deep Q-learning
对于第一个不收敛的问题，引入一个target net来解决。

2.3 一些小的改进

2.4 泛Q-learning(general view of Q-learning)

Q-learning 的改进

3.1 Q-net 是否估计的准确？

Q-net通常是高估的

image.png

3.2 Q-net 高估的一个解释

3.3 double deep Q learning

3.4 Muti-step returns

Q-learning对于连续的动作

最后编辑于：2023.08.15 00:57:07

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

class：deep RL UC Berkeley
用法总结 Imitation learning只能模仿所给的demonstration，并不能超越，而且没有应用到...
Zichen_195d阅读 5,139评论 0赞 1
8. DRL中的Q-Function
8. DRL中的Q-Function 1. Replay Bufffer 回顾下之前的Q-Learning算法，不...
Jabes阅读 4,886评论 0赞 0

深度强化学习 Deep Reinforcement Learning
https://hunch.net/~beygel/deep_rl_tutorial.pdfhttps://icm...
斑驳岁月再难觅阅读 6,848评论 0赞 2
深度强化学习（三）：从Q-Learning到DQN
一、无模型的强化学习在上一节中介绍了基于模型的强化学习方法(动态规划)，其中的前提是知道环境的状态转移概率，但在...
fromeast阅读 23,196评论 3赞 19
RL Paper Review
导航 Learning to Navigate in Cites Without a Map, NIPS2018，...
Zichen_195d阅读 4,724评论 0赞 1

赞1赞

赞赏

手机看全文