马尔可夫决策过程与贝尔曼方程

  马尔可夫决策过程 (Markov Decision Process,MDP)是序贯决策(sequential decision)的数学模型,一般用于具备马尔可夫性的环境中。最早的研究可以追溯到最优控制 (optimal control)问题上,1957年,美国学者Richard Bellman通过离散随机最优控制模型首次提出了离散时间马尔可夫决策过程。1960年和1962年,美国学者Ronald A. Howard和David Blackwell提出并完善了求解MDP模型的动态规划方法。之后被广泛用于自动控制、推荐系统、强化学习等领域。

  • 参考文献1:Howard, R.A..Dynamic Programming and Markov Processes.Cambridge, Massachusetts:Technology Press-Wiley,1960
  • 参考文献2:Bellman, R.E., 1957. A Markov decision process. Journal of Mathematical Mechanics, 6, pp.679-684.
  • 参考文献3:Blackwell D., 1962. Discrete dynamic programming. Ann Math Stat 33: 719-726.

  在机器学习中是一种用于解决强化学习问题的数学框架。在强化学习中,马尔可夫决策过程是对完全可观测的环境所描述的,即智能体的观测内容完整地包含了决策所需要的所有特征。几乎所有的强化学习控制对象都是需要先建模成马尔可夫决策过程,之后套优化算法做优化。最常见的优化算法就是动态规划 (Dynamic programming) 算法,是一种解决复杂问题非常行之有效的方法。近些年结合深度学习求解的方法大红大紫。

马尔可夫性

  在说马尔可夫决策过程之前,我们需要先了解一下马尔可夫性。那什么样的状态具备马尔可夫性(Markov Property)呢?

  当某一当前状态可知,所有的历史信息都不再需要,即当前时刻的状态仅与前一时刻的状态和动作有关,与其他时刻的状态和动作条件独立,则认为该状态具有马尔可夫性。用状态转移的概率公式描述马尔可夫性表示如下:

\mathbb{P}\left[S_{t+1} | S_{t}\right]=\mathbb{P}\left[S_{t+1} | S_{1}, \ldots, S_{t}\right]

马尔可夫过程

  马尔可夫过程(Markov Process)又叫马尔可夫链,是一个无记忆的随机过程,可以用一个二元组来表示\langle\mathcal{S}, \mathcal{P}\rangle,其中:

  • \mathcal{S}表示一个有限状态集合;
  • \mathcal{P}表示状态转移概率矩阵,有:\mathcal{P}_{\mathcal{s}\mathcal{s}^{\prime}}=\mathbb{P}[\mathcal{S}_{t+1}=\mathcal{s}^{\prime}|\mathcal{S}_{t}=\mathcal{s}]

  我们举个例子来说明理解一下:

  下图中是一个学生学习的示例,圆圈是学生所在的状态,方格表示终止状态,或者描述成自循环的状态。箭头表示状态之间的转移,箭头上的概率表示状态转移的概率。

马尔可夫过程图

  如学生在第一节课的时候,他有50\%的概率参加第二节课,同时也有50\%的概率去刷Facebook,在刷Facebook的时候有90\%的概率继续浏览,有10\%的概率回到第一节课上来。依此类推可以知道整个的状态转移情况。其状态转移矩阵\mathcal{P}如下所示

状态转移矩阵

马尔可夫奖励过程

  马尔可夫奖励过程(Markov Reward Process),它在马尔可夫过程的基础之上增加了奖励\mathcal{R}和衰减系数\mathcal{\gamma},可以用一个四元组来表示\langle\mathcal{S}, \mathcal{P}, \mathcal{R}, \mathcal{\gamma}\rangle,其中:

  • \mathcal{S}表示一个有限状态集合;
  • \mathcal{P}表示状态转移概率矩阵;
  • \mathcal{R}是奖励函数,定义为:\mathcal{R}_{s}=\mathbb{E}[R_{t+1}|\mathcal{S}_{t}=\mathcal{s}],表示在当前时刻t的状态\mathcal{S}_{t}下,下一个时刻t+1所能获得的期望奖励
  • \mathcal{\gamma}是折扣因子(discount factor),\mathcal{\gamma} \in [0,1]

马尔可夫决策过程

  马尔可夫决策过程也被称为受控马尔可夫链(controlled Markov chain)、随机控制问题 (stochastic controlled problem) 、马尔可夫决策规划(Markov decision programming)等。在一个state选择一个action会产生一个reward,并且通过状态转移概率函数决定下一个时刻的state

  environment对于agent的意义在于提供状态转移函数奖励函数。当状态转移函数和奖励函数给定时,环境可以建模成Markov Decision Process。在Markov Decision Processstate会随着time-step发生转移,意思是说状态之间可以相互迁移,迁移的概率由状态转移函数而定。

  如果我们知道的环境的model,或者说这个model是一个白盒model,即各个状态之间的转移概率都已知 (在Markov Decision Process中状态之间的转移有一个动作action ),在强化学习中称已知model的情形叫做model-based的强化学习,反之model未知,叫做model-free的强化学习。

  从马尔可夫奖励过程过渡过来,马尔可夫决策过程(Markov Decision Process),是带有决策的马尔可夫奖励过程,环境所提供的所有状态都具备马尔可夫性。它在马尔可夫奖励过程中添加了决策集合\mathcal{A},因此MDP可以用一个五元组来表示\langle\mathcal{S}, \mathcal{A},\mathcal{P}, \mathcal{R}, \mathcal{\gamma}\rangle,其中

  • \mathcal{S}表示一个有限状态集合;
  • \mathcal{A}表示一个有限的动作集合
  • \mathcal{P}表示状态转移概率矩阵,\mathcal{P}_{\mathcal{ss^{\prime}}}^{\mathbb{a}}=\mathbb{P}[\mathcal{S_{t+1}=\mathcal{s^{\prime}}}|\mathcal{S_{t}=s},\mathcal{A}_{t}=a]
  • \mathcal{R}是奖励函数,定义为:\mathcal{R}_{s}^{a}=\mathbb{E}[R_{t+1}|\mathcal{S}_{t}=\mathcal{s},\mathcal{A}_{t}=a],表示在当前时刻t的状态\mathcal{S}_{t}下,采取动作\mathcal{A}_{t}=a之后,下一个时刻t+1所能获得的期望奖励
  • \mathcal{\gamma}是折扣因子(discount factor),\mathcal{\gamma} \in [0,1]

  比如在玩游戏的时候,当前所观测的图片的像素,你可以认为它是一个\mathcal{S}集中的一个state(观测实际上是代表部分state);比如下围棋的时候,落子位置可以被看作action space \mathcal{A}中的某个actiondiscount factor \mathcal{\gamma}描述的是未来奖励的一种折扣关系,越远的奖励给当前的影响越小,因此需要一个折扣因子;基于当前stateaction一起决定这个reward应该是多少,一般是一个标量,如果是一个向量的话就变成了一个multi-goal的强化学习。其实在很多场景下面reword只是跟state本身有关,比如围棋游戏中的state,但rewardstateaction这样一个pair有关的场景也是存在的。

  我们以下面的例子来再次说一下什么是马尔可夫决策过程:

MDP

  上图中的红色字表示的是所采取的动作,它与及时奖励相对应。同一个状态下采取不同的action所得到的及时奖励是不一样的,这里面是没有给出状态名称的,因为怕容易混淆了,实际上你选择了Facebook这个动作之后,你的状态就进入了刷Facebook中了。注意看最下面那个小黑点,表示的是那是一个临时状态,在那个状态智能体会按照一定的概率随机转移到另外的一个状态。

MDP-策略

  我们接下来看一下马尔可夫决策过程中的策略\mathcal{\pi},它是一个概率集合(离散动作空间)或者一个分布(连续动作空间),对某个状态\mathcal{s}采取某个动作a的概率我们可以用公式表示为如下形式:

\mathcal{\pi}(a|s)=\mathbb{P}[\mathcal{A_{t}=a|\mathcal{S_{t}}=s}]

  一个策略完整定义了智能体的行为方式,也就是说定义了个体在各个状态下的各种可能的行为方式及其概率的大小。

  MDP中,策略仅与当前状态有关,与历史状态无关;同时某一策略是静态的,与时间无关,但个体可以随着时间更新来更新策略。

\mathcal{A_{t}} \sim \mathcal{\pi(\cdot | \mathcal{S_{t}})},\forall_{t} >0

MDP-值函数

  在介绍值函数之前,我们需要先了解一下回报(return)或者叫做累计奖励 (cumulative reward):在马尔可夫奖励链上,从时间步t时刻开始,往后所能获得的所有折扣奖励(reward)和我们称之为回报,其中折扣因子 \mathcal{\gamma} 体现了未来的奖励在当前时刻的价值比例,其数学表达如下所示:

G_{t}=R_{t+1}+\gamma R_{t+2}+\ldots=\sum_{k=0}^{\infty} \gamma^{k} R_{t+k+1}

状态价值函数

  状态价值函数(state-value function):表示的是在MDP中,从当前状态\mathcal{s}开始,遵循策略\pi所能获得的期望回报。数学表达如下所示:

\mathcal{v_{\pi}(s)}=\mathbb{E_{\pi}}[G_{t}|\mathcal{S_{t}=s}]

  这里的策略是静态的,不随状态的改变而改变,而随着智能体的更新而改变。是在某一状态,依据所采取的策略,可能产生具体的行为,而这具体的行为又具有一定概率,策略就是用来描述各个不同状态下描述采取各个不同动作的概率。

动作价值函数

  动作价值函数(action-value function):表示依据策略\pi时,在给定状态\mathcal{s}下,采取某一具体的行为a,所能获得的期望回报

\mathcal{q_{\pi}(s,a)}=\mathbb{E_{\pi}}[G_{t}|\mathcal{S_{t}=s}|\mathcal{A_{t}=a}]

MDP-贝尔曼期望方程

  上面只是求出了状态价值函数和动作价值函数,我们怎么来求出最优的值函数呢?

  贝尔曼期望方程(Bellman Expectation Equation)是马尔可夫决策过程中一个非常重要的知识点。

  我们可以用下一时刻的状态值函数及时奖励来描述当前时刻的状态值函数,其推导过程如下所示:

\begin{aligned} v(s) &=\mathbb{E}\left[G_{t} | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma R_{t+2}+\gamma^{2} R_{t+3}+\ldots | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma\left(R_{t+2}+\gamma R_{t+3}+\ldots\right) | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma G_{t+1} | S_{t}=s\right] \\ &=\mathbb{E}\left[R_{t+1}+\gamma v\left(S_{t+1}\right) | S_{t}=s\right] \end{aligned}

  可得到状态值函数的贝尔曼期望方程的最终结果:

v_{\pi}(s)=\mathbb{E_{\pi}}[R_{t+1}+\gamma v_{\pi}(\mathcal{S_{t+1}})|\mathcal{S_{t}=s}]

  同理我们可以得到动作值函数的贝尔曼期望方程:

q_{\pi}(s,a)=\mathbb{E}_{\pi}[R_{t+1}+\gamma q_{\pi}(\mathcal{S_{t+1},\mathcal{A}_{t+1}})|\mathcal{S_{t}=s,\mathcal{A}_{t}=a}]

  这里可能会对这个期望函数有点难理解,我们把它拆开来理解一下。

MDP-贝尔曼期望方程求V、Q

\mathcal{s}-av

  状态价值函数和动作价值函数的关系如下图所示:

[图片上传失败...(image-200062-1584153780539)]
  图中空心圆圈表示状态,黑色的实心圆圈表示动作本身,连接状态的线条把该状态下能够采取的动作关联起来。数学公式描述如下:

v_{\pi}(s)=\sum_{a \in \mathcal{A}}\pi(a|s)q_{\pi}(s,a)

  可以看出,在遵循策略时,状态的价值体系为:在该状态下,遵循某一策略,而采取所有可能动作的价值(动作值函数q_{\pi}(s,a)),按动作发生概率\pi(a|s)的乘积求和。

a-\mathcal{s^{\prime}}q

  类似的,一个动作价值函数也可以表示成状态价值函数的形式:

[图片上传失败...(image-e45060-1584153780539)]

  它表示:某一个状态下采取某一个动作的价值可以分为两部分:离开这个状态的及时奖励 r,和进入新的状态s^{\prime}的概率与新的状态价值v_{\pi}(s^{\prime})的乘积。数学形式如下所示:

q_{\pi}(s,a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime}\in \mathcal{S}}\mathcal{P}_{ss^{\prime}}^{a}v_{\pi}(s^{\prime})

\mathcal{s}-a-\mathcal{s}^{\prime}求取v

  所谓的状态值函数求状态值函数的方法就是:通过下一个时刻的状态值函数v(s^{\prime}),求取当前状态的状态值函数v(s)

[图片上传失败...(image-f51aee-1584153780539)]

  可以看到,上图是动作值函数求状态值函数(上半部分),和状态值函数求动作值函数(下半部分)组合而得到的。其数学表达如下所示:

v_{\pi}(s)=\sum_{a \in \mathcal{A}} \pi(a | s)\left(\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{\pi}\left(s^{\prime}\right)\right)

a-s^{\prime}-a^{\prime}求取q

  所谓的动作值函数求动作值函数的方法就是:通过下一个时刻的状态下采取的动作值函数q_{\pi}\left(s^{\prime}, a^{\prime}\right),求取当前状态下的动作值函数q_{\pi}(s, a)

[图片上传失败...(image-2b5252-1584153780539)]

  类似的可以得到如下数学表达式:

q_{\pi}(s, a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} \sum_{a^{\prime} \in \mathcal{A}} \pi\left(a^{\prime} | s^{\prime}\right) q_{\pi}\left(s^{\prime}, a^{\prime}\right)

MDP-最优值函数

最优状态价值函数

  最优状态价值函数指的是在从所有策略中产生的状态价值函数中,寻找到一个能使得状态s获得最大价值的策略所对应的那个值函数,数学表达形式如下所示:

v_{*}(s)=\max_{\pi} v_{\pi}(s)

最优动作值函数

  类似的,最优动作值函数,指从所有策略中选择一个能使得行为值函数最大的那一个策略所对应的动作值函数,数学表达形式如下所示:

q_{*}(s,a)=\max_{\pi}q_{\pi}(s,a)

  最优值函数描述了MDP过程中最优的表现,当我们知道了最优值函数,MDP问题也就被求解出来了

MDP-最优策略

  在强化学习过程中最优策略,就是强化学习问题的解。一般很难找到最优策略,但是我们通过比较各个策略的好坏,可以得到一个较好的策略(局部最优解)。

  • 什么是最优策略?

  当对于任何状态s,遵循策略\pi的价值不小于遵循策略\pi^{\prime}下的价值,则策略\pi优于策略\pi^{\prime}

定理

  这里对所有的MDP问题有一个定理:

  1. 存在一个最优策略\pi_{*},它比其他策略都好,或者相等,数学表示为:\pi_{*} \geq \pi, \forall \pi
  2. 所有的最优策略有相同的最优值函数。v_{\pi_{*}}(s)=v_{*}(s)
  3. 所有最优策略具有相同的动作价值函数。q_{\pi_{*}}(s,a)=q_{*}(s,a)
  • 如何寻找最优策略?

  大体思路是:通过最大化最优动作值函数来找到最优策略。

  通过选取最大化动作值函数找到最优策略。数学表达如下所示:

\pi_{*}(a | s)=\left\{\begin{array}{ll} {1} & {\text { if } a=\underset{a \in \mathcal{A}}{\operatorname{argmax}}\ \ q_{*}(s, a)} \\ {0} & {\text { otherwise }} \end{array}\right.

  所以对于MDP来说这里肯定是存在一个最优策略的。如果我们知道了最优动作值函数q_{*}(s,a),我们就相当于知道了最优策略。

MDP-贝尔曼最优方程求V_{*}Q^{*}

\mathcal{s}-av_{*}

[图片上传失败...(image-6530c9-1584153780539)]

  其数学表达式如下所示:

v_{*}(s)=\max _{a} q_{*}(s, a)

a-\mathcal{s^{\prime}}q_{*}

[图片上传失败...(image-ac8521-1584153780539)]

  其数学表达式如下所示:

q_{*}(s, a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{*}\left(s^{\prime}\right)

\mathcal{s}-a-\mathcal{s}^{\prime}求取v_{*}

[图片上传失败...(image-131f3f-1584153780539)]

  其数学表达式如下所示:

v_{*}(s)=\max _{a} \mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} v_{*}\left(s^{\prime}\right)

a-s^{\prime}-a^{\prime}求取q_{*}

[图片上传失败...(image-bb90a6-1584153780539)]

  其数学表达式如下所示:

q_{*}(s, a)=\mathcal{R}_{s}^{a}+\gamma \sum_{s^{\prime} \in \mathcal{S}} \mathcal{P}_{s s^{\prime}}^{a} \max _{a^{\prime}} q_{*}\left(s^{\prime}, a^{\prime}\right)

  贝尔曼方程的求解一般通过迭代算法进行,比如策略迭代、值迭代、Q-Learning等。

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容