关于增强学习Q(s,a)的理解。
Temporaral Difference通过求解Belleman最优方程来进行预测和控制。
关于最优价值函数、最优行为的定义如下:
最近在思考,为什么Q-Learning能取得如此好的效果。
总结关键点如下:
- Q-Learning是通过直接解Belleman最优方程来求解最优Q值,而不是在无限多的策略π中选择最优的策略的Q值。
- Belleman最优方程存在条件是要选择最优行为,因此Q-Learning的策略就是选择最优状态下Q值最大的行为。(存在条件、行为策略两者恰好统一)。
- 通过Incremental Improvement, 这种学习方法可以做到Policy Imporvement(更新后的Q值一定不比原来的差)。从而,实现了从任意状态开始进行学习,可以收敛到最优的价值函数。(这一点可以参照《Reinforcement Learning: An Introduction》的4.2节P62)