深度强化学习(10)Q-Learning

本文主要内容来源于 Berkeley CS285 Deep Reinforcement Learning


本文从 深度强化学习(9)Fitted Q-iteration 过渡到 Q-Learning。

Fitted Q-iteration

Fitted Q-iteration 是一个 Off policy Learning, 因为他用到了不同的Policy。 在生成Transaction 的时候, 用的policy 和并不一定用的是最大Q值的 Policy。

image.png
Online Q-iteration

这是 Online Q-iteration

Online Q-iteration

在第1步的时候, 它选取 a_{i} 的方式没有特意的规定, 因此就留下了很多灵活性。 这样每选择一批样本, 就可以进行一次 Batch Traning。

Online Q-iteration
Exploration

在强化学习中,Exploration 指的是算法有机会以一定几率, 不以当前最佳收益选择行动, 这样可以在训练前期增加找到最优点的可能性。

【哲思】人生在年轻的时候, 就应该增加更多的Exploration, 因为年轻的时候的Policy 往往就是不成熟的。但是看到的最好结果, 其实未必是真的最好结果, 只是一个不完善的Policy给出的建议。

之所以在这里提出这个问题, 是因为,我们刚才讨论的选择最好outcome 的策略是 Deterministic 的, 这里没有任何随机性,因此就不存在 exploration。

image.png

我们可以用其他手段加入一些不确定性:

  1. \epsilon greedy
e 贪婪

策略有一定的几率选择非最优的 Action

2 Boltzmann exploration

image.png

这里有点像 Softmax, 一个 Action 被选择的概率, 正比于 Q值,好的 Action 会有更大几率被选中, 但是还是有不确定性存在。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容