1. 策略迭代算法:
- 初始化
.
- 策略评估:(一般而言,下式中
为固定策略由于策略更新)
![]()
- 策略更新:
![]()
- 如果
与上次迭代相比没有变化,则停止;否则,转回2。
2. 策略改进分析
(Lemma 1)策略更新可以使得
单调递增,最终收敛于
。
假设第k次迭代前的策略为, 迭代后的策略为
. 而
为
下的贪婪策略。所以需要证明,
下面证明更加通用的定理:
(Lemma 2)对任意的
和
,并且对于任意的
,
这里是折扣的state occupancy,由
从起始状态
引入。
Proof:
考虑一个策略序列
, 其中
对于任意中间的
是一个随时间变化的策略,前
个时间步采用策略
而后面的时间步采用策略
。
根据差分求和,有,
策略集π.png
可见和
仅在
上的动作选择有差异,所以两者的值函数差异就体现在
所以
综上,策略提升得证。
