在本节课之前讲了Policy Gradients和Policy Iteration 方法,这节课的内容是试图将两者结合来为Policy Gradients提供新的视角,并分析在什么情况下Policy Gradients会起作用。本节课的分析主要是针对于Policy Gradients,但是也对actor critic之类的算法甚至更广泛的强化学习理论有帮助。
策略梯度和策略迭代有相似之处。
策略迭代是直接选择使A达到最大值的action,而策略梯度是将策略的参数往使A最大的方向移动。如果你的优势函数并不完美的话,后者可能是更佳的选择。(*)
- 从策略迭代的角度看策略梯度
这个式子表示新策略比旧策略能够带来的期望奖励的提升。这里有一个claim:
的差值等于旧策略θ的优势函数在新策略θ‘下的轨迹空间内的期望。
这个claim说明,优化以θ'为变量的等价于优化以θ为变量的,优化等式右边就等于优化等式左边,如果能够将最大化,那么就能够最大程度优化策略,而优化策略就是我们的最终目的。
证明过程如下: