强化学习基础篇(四)动态规划之迭代策略评估

强化学习基础篇(四)动态规划之迭代策略评估

1、迭代策略评估(Iterative Policy Evaluation)

在环境模型已知的前提下,对于任意的策略​,需要合理估算该策略带来的累积奖励期望以及准确衡量该策略的优劣程度,而策略评估(Policy Evaluation)可以实现这两个目标。

回顾一下策略​的具体定义:策略​是根据环境反馈的当前状态,决定智能体采取何种行动的指导方法。策略评估通过计算与策略对应的状态值函数​,以评估该策略的优劣。即给定一个策略,计算基于该策略下的每个状态的状态值​的期望,并用该策略下的最终状态值的期望来评价该策略。

策略评估通过迭代计算贝尔曼期望方程,已获得对应的状态值函数​,进而利用该状态值函数评估该策略是否最优,

2、 迭代策略评估的过程

问题定义:

评估一个给定策略​,求对应的值函数​或者​,即解决预测(Prediction)问题。

解决方案:

  • 直接求解贝尔曼方程,可以参考《强化学习基础篇(二)马尔科夫决策过程(MDP)》中MDP下贝尔曼方程的矩阵形式。可以在时间复杂度为​的情况下求得精确解。

  • 迭代解:迭代地应用Bellman期望方程进行求解,​。

具体方法-同步反向迭代(synchronous backups):

即在每次迭代过程中,对于第​次迭代,所有状态 ​ 的价值用​计算并更新该状态第​次迭代中使用的价值 ​ ,其中​ 是​的后继状态。

同步(synchronous)的含义是每次更新都要更新完所有的状态;

备份(backup),即​需要用到​,用​更新​ 的过程称为备份,更新状态​的值函数称为备份状态​。

使用数学描述这个过程为:

<svg xmlns:xlink="http://www.w3.org/1999/xlink" width="66.702ex" height="5.551ex" viewBox="0 -1039.5 28718.6 2390.2" role="img" focusable="false" style="vertical-align: -3.137ex;" class="in-text-selection"><g stroke="currentColor" fill="currentColor" stroke-width="0" transform="matrix(1 0 0 -1 0 0)"><g transform="translate(18364,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">(</text></g><g transform="translate(20124,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">为</text></g><g transform="translate(20932,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">第</text></g><g transform="translate(22260,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">次</text></g><g transform="translate(23067,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">迭</text></g><g transform="translate(23874,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">代</text></g><g transform="translate(24682,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">得</text></g><g transform="translate(25489,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">的</text></g><g transform="translate(26296,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">函</text></g><g transform="translate(27104,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">数</text></g><g transform="translate(27911,0)"><text font-family="STIXGeneral, 'PingFang SC', serif" stroke="none" transform="scale(51.874) matrix(1 0 0 -1 0 0)">)</text></g></g></svg>

3、同步备份下的迭代式策略评价算法

一次迭代内,状态​的价值等于前一次迭代该状态的即时奖励与下​一个所有可能状态​ 的价值与其概率乘积的和,如图示:

image.png

同步备份下的迭代式策略评价算法的伪代码如下:

image.png

4、迭代策略评估在方格问题(Gridworld)中的示例

4.1、Gridworld描述:

image.png

已知条件为:

状态空间 ​:如图,​ - ​ 为非终止状态,​为终止状态(灰色方格所示的两个位置) 动作空间 ​:对于任何非终止状态可以有东南西北移动的四个动作。 转移概率 ​:任何试图离开方格世界的动作其位置将不会发生改变,其余条件下将100%地转移到动作指向的状态。 即时奖励 ​:任何在非终止状态间的转移得到的即时奖励均为-1.0,进入终止状态即时奖励为0 衰减系数​:设定为常数1 当前策略 ​:智能体采用随机行动策略,在任何一个非终止状态下有均等的几率采取任一移动方向这个行为,即​。

4.2、问题定义:

评估在这个方格世界里给定的策略。即求解该方格世界在给定策略下的(状态)价值函数,也就是求解在给定策略下,该方格世界里每一个状态的价值。

4.3、结果:

image.png

4.4、计算过程

preview
img
img
img
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 225,337评论 6 524
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 96,560评论 3 406
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 172,632评论 0 370
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 61,219评论 1 303
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 70,219评论 6 401
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 53,670评论 1 316
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 42,018评论 3 431
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 41,000评论 0 280
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 47,552评论 1 326
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 39,565评论 3 347
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,692评论 1 355
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 37,280评论 5 351
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 43,009评论 3 341
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 33,435评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,587评论 1 277
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 50,276评论 3 383
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,752评论 2 367