深度强化学习（10）Q-Learning

Fitted Q-iteration 是一个 Off policy Learning，因为他用到了不同的Policy。在生成Transaction 的时候，用的policy 和并不一定用的是最大Q值的 Policy。

image.png

这是 Online Q-iteration

Online Q-iteration

在第1步的时候，它选取 $a_{i}$ 的方式没有特意的规定，因此就留下了很多灵活性。这样每选择一批样本，就可以进行一次 Batch Traning。

Online Q-iteration

在强化学习中，Exploration 指的是算法有机会以一定几率，不以当前最佳收益选择行动，这样可以在训练前期增加找到最优点的可能性。

【哲思】人生在年轻的时候，就应该增加更多的Exploration，因为年轻的时候的Policy 往往就是不成熟的。但是看到的最好结果，其实未必是真的最好结果，只是一个不完善的Policy给出的建议。

之所以在这里提出这个问题，是因为，我们刚才讨论的选择最好outcome 的策略是 Deterministic 的，这里没有任何随机性，因此就不存在 exploration。

image.png

我们可以用其他手段加入一些不确定性：

e 贪婪

策略有一定的几率选择非最优的 Action

2 Boltzmann exploration

image.png

这里有点像 Softmax，一个 Action 被选择的概率，正比于 Q值，好的 Action 会有更大几率被选中，但是还是有不确定性存在。

最后编辑于：2022.02.18 00:23:33

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。