4.3 Policy Iteration

《Reinforcement Learning: An Introduction》笔记
4.3 Policy Iteration


image.png

个人理解,这个算法的主要思路是:
(a) 首先任意初始化一个策略 \pi(s),和一个值函数v(s)
(b) 之后,通过Policy Evaluation不断迭代值函数v(s),直到近似收敛(until delta < theta),这一步的依据是式(4.5):

v_{\pi}的存在性保证了v_k的收敛性。最终得到的值函数v(s)v_{\pi}的近似。
(c) 得到策略\pi及对应的值函数 v(s) 可以看成是 v_{\pi}(s)后,通过policy improvement得到更优的策略,注意:

在有限马尔可夫决策过程中是一定可以取到的,因此在此时的值函数下,可以得到一个新的策略,这个策略在值函数V下比原来的策略更好,如果该新策略与原策略不同,则回到Policy Evaluation(b)步骤,确定新策略下的值函数,然后再执行Policy Improvement步骤,确定新值函数下更优的新新策略,如此循环反复,直到某k+1次Improvement后得到的策略函数与第k次得到的策略函数相同。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容