登录注册写文章

4.3 Policy Iteration

4.3 Policy Iteration

《Reinforcement Learning: An Introduction》笔记
4.3 Policy Iteration

image.png

个人理解，这个算法的主要思路是：
（a）首先任意初始化一个策略 $\pi(s)$ ，和一个值函数 $v(s)$ ，
（b）之后，通过Policy Evaluation不断迭代值函数v(s)，直到近似收敛(until delta < theta)，这一步的依据是式(4.5)：

$v_{\pi}$ 的存在性保证了 $v_k$ 的收敛性。最终得到的值函数 $v(s)$ 是 $v_{\pi}$ 的近似。
(c) 得到策略 $\pi$ 及对应的值函数 $v(s)$ 可以看成是 $v_{\pi}(s)$ 后，通过policy improvement得到更优的策略，注意：

在有限马尔可夫决策过程中是一定可以取到的，因此在此时的值函数下，可以得到一个新的策略，这个策略在值函数V下比原来的策略更好，如果该新策略与原策略不同，则回到Policy Evaluation（b）步骤，确定新策略下的值函数，然后再执行Policy Improvement步骤，确定新值函数下更优的新新策略，如此循环反复，直到某k+1次Improvement后得到的策略函数与第k次得到的策略函数相同。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,511评论 0赞 25
深度强化学习（理论篇）—— 从 Critic-only、Actor-only 到 Actor-...
来源于 Tangowl 的系列文章 https://blog.csdn.net/lipengcn/article/...
TangowL阅读 11,263评论 0赞 4

神经网络：改进神经网络的学习方法（下）
改进神经网络的学习方法（下）权重初始化创建了神经网络后，我们需要进行权重和偏差的初始化。到现在，我们一直是根据...
nightwish夜愿阅读 6,036评论 0赞 0
这七零八落的青春（连载9）
“……好啊你个许星！敢揭我老底？……看我不收拾你！”李妍晨朝着已冲出门外落荒而逃的许星边追边喊。妈妈无奈的摇摇头...
俐缘阅读 2,607评论 1赞 2
至暗时刻，曙光降临。
5178峰值已经过去三年，套了一波又一波韭菜，能活下来的真的不易，稳定高利润套利不是骗子就是流氓，高获利伴随高风险...
吃鸡小股手阅读 2,299评论 0赞 1

赞1赞

赞赏

手机看全文