马尔可夫决策过程

马尔可夫过程

马尔可夫过程是一组具有马尔可夫性质的随机变量序列 s1 , · · · , st ,马尔可夫性质就是下一个时刻的状态 st+1 只取决于当前状态 st 。一个马尔可夫过程由一组状态和状态间的转移概率组成。
我们设状态的历史为 ht = {s1 , s2 , s3 , . . . , st }(ht 包含了之前的所有状态),则马尔可夫 过程满足条件:

image.png

从当前 st 转移到 st+1 ,它是直接就等于它之前所有的状态转移到 st+1 。
马尔可夫链是最简单的马尔可夫过 程,其状态是有限的,最简单的马尔可夫链就是交通红绿灯,状态就是红黄绿三种颜色的信号灯,概率就是信号灯转换之间的概率。

马尔可夫奖励过程

马尔可夫奖励过程是马尔可夫链加上奖励函数。奖励函 数 R 是一个期望,表示当我们到达某一个状态的时候,可以获得多大的奖励。
为什么要加上奖励?
1、了解在给定策略下执行一系列动作后的长期效果。通过计算状态价值函数,可以量化不同决策路径的价值。
2、MRP为智能体提供了一种评估环境反馈的方式,有助于智能体根据历史经验做出更优的选择。
如何定义奖励?
奖励就是智能体采取某个动作之后,环境达到某个状态所带给的价值产出。我们把当前状态所导致的后续产出的总和称之为回报。其定义如下:

image.png

回报由后续每个步骤的奖励组成,但每一步的奖励的权重是不一样的,越靠近当前的奖励其权重越大,越往后的奖励其影响越小,这个权重由γ定义。
有了奖励之后,就能定义每个状态的价值,即状态价值函数。

image.png

由上式可知,要知道某个状态好不好,就看它未来产生的价值就知道了。
举个例子--如何计算价值?
假如有这样一个马尔可夫链:

image.png

其奖励函数可以定义为:智能体进入第一个状态 s1 的时候会得到 5 的奖励,进入第七个状态 s7 的时候会 得到 10 的奖励,进入其他状态都没有奖励。我们可以用向量来表示奖励函数:

image.png

即当我们进入 s4 后,它的价值到底如何?我们对 4 步的回合(γ = 0.5)来采样回报 G。
做法:我们可以从 s4 开始,采样生成很多轨迹,把这些轨迹的回报都计算出来,然后 将其取平均值作为我们进入 s4 的价值。

(1)s4 , s5 , s6 , s7 的回报G1 : 0 + 0.5 × 0 + 0.25 × 0 + 0.125 × 10 = 1.25
(2)s4 , s3 , s2 , s1 的回报G2 : 0 + 0.5 × 0 + 0.25 × 0 + 0.125 × 5 = 0.625
(3)s4 , s5 , s6 , s6 的回报G3 : 0 + 0.5 × 0 + 0.25 × 0 + 0.125 × 0 = 0

G = 1/3(G1+G2+G3),G即是状态s4的估计价值。
我们称这种采样方法为,蒙特卡洛采样是一种基于随机抽样的统计方法,核心思想是从实际的经验(即轨迹)中学习,通过多次采样并计算平均回报来估计每个状态的价值。蒙特卡洛方法有一定的局限性,它只能用在有终止的马尔可夫决策过程中。

蒙特卡洛采样是一种近似的方法估计状态的价值,贝尔曼方程则是精确求解状态价值的方法,其方程式如下:

image.png

贝尔曼方程定义的就是当前状态与未来状态的迭代关系。
用矩阵来表示贝尔曼方程:

image.png

直接对上述方程进行V(s)求解:

image.png

求解这个方程难在哪里?难在求逆。
当P的维度非常大时,即状态非常多,矩阵求逆非常难。
所以,贝尔曼方程只适合状态集合非常小的马尔可夫奖励过程。

计算马尔可夫奖励过程中状态的价值,方法不止贝尔曼方程和蒙特卡洛采样,还有动态规划和时序差分等。(另一篇再讲)

马尔可夫决策过程

相对于马尔可夫奖励过程,马尔可夫决策过程多了决策(决策是指动作)。所以,到达某个状态不仅依赖于当前状态,同时也依赖于当前所产生的动作。
不含动作的状态转移矩阵是这样的:

image.png

含动作的状态转移矩阵是这样的:

image.png

所以,当前状态的奖励和以及价值都依赖于采取什么动作了。
对于智能体来说,在某个状态下,采取什么样的动作是由策略函数决定的,即:

image.png

在策略已知的情况下,马尔可夫决策过程和马尔可夫奖励过程是可以相互转化的。
假如已知策略函数,也就是已知在每一个状态下,可能采取的动作的概率,所以我们就可以直接把动作进行加和,去掉 a,这样我们就可以得到对于马尔可夫奖励过程的转移:

image.png

两个过程的对比:

image.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,922评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,591评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,546评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,467评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,553评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,580评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,588评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,334评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,780评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,092评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,270评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,925评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,573评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,194评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,437评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,154评论 2 366
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,127评论 2 352

推荐阅读更多精彩内容