为什么Q-Learning有效?

关于增强学习Q(s,a)的理解。

Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
关于最优价值函数、最优行为的定义如下:

最优价值函数
最优行为
最优价值函数的学习准则

最近在思考,为什么Q-Learning能取得如此好的效果。

总结关键点如下:

  • Q-Learning是通过直接解Belleman最优方程来求解最优Q值,而不是在无限多的策略π中选择最优的策略的Q值。
  • Belleman最优方程存在条件是要选择最优行为,因此Q-Learning的策略就是选择最优状态下Q值最大的行为。(存在条件、行为策略两者恰好统一)。
  • 通过Incremental Improvement, 这种学习方法可以做到Policy Imporvement(更新后的Q值一定不比原来的差)。从而,实现了从任意状态开始进行学习,可以收敛到最优的价值函数。(这一点可以参照《Reinforcement Learning: An Introduction》的4.2节P62)
Q-Learning的学习方法
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容