2021 重启强化学习(5) 马尔可夫决策过程和动态规划

cover_001.png

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和简书使用头像一致。

在 MDP 中策略估计(Policy evaluation)

  • 目标: 评估一个给定了定策略 \pi 的马尔可夫决策过程(MDP)

  • 输出: 计算出一个策略价值函数v_{\pi}

  • 解决方案: 通过贝尔曼期望方程回溯进行迭代

  • 算法: 同步回溯
    考虑所有在 t+1 时刻的状态可能,这里状态 s \in \cal{S},可以通过一个 s 状态的后续装 s^{\prime} 的价值函数来更新 v_{t+1}(s) 从而形成迭代
    v_{t+1}(s) = \sum_{a \in \cal{A}} \pi(a|s) \left( R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a) v_t(s^{\prime}) \right)

  • 逐渐收敛 v_1,v_2,v_{\pi}

通过马尔可夫奖励过程<\cal{S},\cal{P}_{\pi},\cal{R}_{\pi},\gamma>

v_{t+1}(s) = R_{\pi}(s) + \gamma P_{\pi}(s^{\prime}|s)v_t(s^{\prime})

通过边缘概率将动作 a 去掉,从而得到一个简化马尔可夫奖励过程

  • 这里价值函数只跟状态和价值有关,也就是未来进入某一个状态会得到多少奖励
  • 引入动作(Action)就是其实就是引入智能体对状态转移的控制,状态转移不再是根据上一个状态的随机转移,而是引入了动作(Action)来控制状态的转移。
005.png

V_{\pi}(s) = \sum_{a \in \cal{A}} \pi(a|s)\left( R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a) V_{\pi}(s^{\prime}) \right)

v^{\pi} = \sum_{a\in \cal{A}} \pi(a|s)R(s,a) + \gamma \sum_{s^{\prime} in \cal{S}}P(s^{\prime}|s)v_{\pi}(s^{\prime})

006.png

策略迭代(Policy iteration)

最优策略和最优值函数

在强化学习中,假设马尔可夫决策过程是有限马尔可夫决策过程,状态和动作的集合是有限的。这样的马尔可夫决策过程也是有限马尔可夫决策过程。所以在策略中一定存在一个最优策略,可以表示为 \pi^{*} 我们是根据价值函数来评估一个策略的好坏。其实很简单,强化学习的最终目标就是尽可能地多获得回报值 v_{\pi}^{\prime} > v_{\pi} 时也就有 \pi^{\prime} > \pi

而对于最优策略,其值函数的值也必然是最大的。

v^{*}(s) = \max_{\pi} v_{\pi}(s)

  • 搜索遍历 \pi
  • 首先要清楚价值函数对每个状态评估,因为状态转移会受到采取什么样的动作所决定。我们要找到一个可以让每一个状态值最大的策略,对应于状态值最大的策略就是我们要找的最优策略。这里最优策略就用

\pi^{*}(s) = \argmax_{\pi} v_{\pi} (s)

  • 所以当我们说某一个 MDP 被解就是我们找到了可以状态值最大所对应的 \pi^{*}(s) 策略函数。

获取最优策略

  • Q 函数状态和动作的函数,直接在 Q 函数获取最大化值
  • a = \argmax_{a \in \cal{A}} Q^*(s,a)\pi^{*}(a|s) = 1 否则为 0

策略搜索

  • 遍历所有可能的策略
  • 所有的策略为 |\cal{A}|^{|\cal{S}|}
  • 这样列举所有可能动作是非常没有效率的,这里其他方法如策略迭代(Policy Iteration)价值迭代(Value Iteration)
  • 寻找最佳策略过程

策略迭代(Policy Iteration)

  • 策略评估
  • 改进策略

策略评估

\pi^{*}(s) = \argmax_{\pi} v^{\pi} (s)

  • 确定性
  • 静态(这里静态是相对于时间而言)
  • 不唯一
007.png

也就是优化现有的策略函数 \pi,先保证这个策略函数 \pi 然后计算当前\pi 的价值函数,当计算出 v_{\pi} 函数,从而推断其 q_{\pi} 函数,最后直接在 q_{\pi}

\pi^{\prime} = greedy(v^{\pi})

改进策略

  • 计算策略函数 \pi 的状态动作(state-action)价值函数
    Q_{\pi_i}(s,a) = R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a) V_{\pi_i}(s^{\prime})
  • 计算新的策略 \pi_{i+1}
    \pi_{i+1}(s) = \argmax_a Q_{\pi_i}(s,a)

然后根据贝尔曼等式满足

策略单调递增

  • 条件是策略是确定性策略 a = \pi(s)
  • 我们通过下面的公式来优化策略
  • 也就是整个状态已经收敛之后

贝尔曼优化等式(Bellman Optimality Equation)

V_{\pi}(s) = max_{a \in \cal{A}} Q_{\pi}(s,a)

Q_{\pi}(s,\pi^{\prime}(s)) = \max_{a \in \cal{A}} Q_{\pi}(s,a) \ge Q_{\pi} (s,\pi(s)) = V_{\pi}(s)

这个式子成立原因: 若 \pi 为确定即每一步 a 不是随机,\pi(a|s) 只能在一个 a 上取 1 其他为 0 因此

  • 对于\pi 是确定,也就是最大

\begin{aligned} V_{\pi}(s) = E_{\pi}[R_{t+1} + \gamma V_{\pi}(S_{t+1})|S_t = s]\\ Q_{\pi}(s,a) = E_{\pi}[R_{t+1} + \gamma Q_{\pi}(s_{t+1},a_{t+1})|S_t = s,A_t=a]\\ \end{aligned}

\begin{aligned} V_{\pi}(s) \le Q_{\pi}(s,\pi^{\prime}(s))\\ = \mathbb{E}[R_{t+1} + \gamma V_{\pi}(S_{t+1})|S_t = s,A_t = \pi^{\prime}(a)]\\ = \mathbb{E}_{\pi^{\prime}}[R_{t+1} + \gamma V_{\pi}(S_{t+1})|S_t = s]\\ \le \mathbb{E}_{\pi^{\prime}}[R_{t+1} + \gamma Q_{\pi}(s_{t+1},\pi^{\prime}(s_{t+1}))|S_t = s]\\ \mathbb{E}_{\pi^{\prime}}[R_{t+1} + \gamma \mathbb{E}_{\pi^{\prime}} [R_{t+2} + \gamma v_{\pi}(s_{t+2})]|S_t = s]\\ = \mathbb{E}_{\pi^{\prime}} [R_{t+1} + \gamma R_{t+2} + \gamma^2 v_{\pi}(s_{t+2}) |S_t = s]\\ \cdots\\ \le \mathbb{E}_{\pi^{\prime}} [R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots |S_t =s ]\\ = V_{\pi^{\prime}}(s) \end{aligned}

\begin{aligned} V^*(s) = \max_{a} Q^*(s,a)\\ Q^*(s,a) = R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a)v^*(s^{\prime}) \end{aligned}

\begin{aligned} V^*(s) = \max_{a} R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a)v*^*(s^{\prime})\\ Q^*(s,a) = R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a) \max_{a^{\prime}} Q^*(s^{\prime},a^{\prime}) \end{aligned}

价值迭代(value iteration)

  • 带有备忘录的递归
  • 贝尔曼期望方程(bellman equation)递归
  • 价值函数用于存储

v(s) \leftarrow \max_{a \in \cal{A}} \left( R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a)v(s^{\prime}) \right)

目标

找到一个最优的策略函数 \pi

求解

迭代贝尔曼最优方程(Bell optimality)回溯

价值迭代算法
  • 对于所有状态初始化 k=1 和 v_0(s) = 0
  • 遍历每一个状态
    Q_{k+1} = R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a)v_k(s^{\prime})
    v_{k+1} = \max_{a} Q_{k+1}(s,a)

\pi(s) = \arg \max_{a} R(s,a) + \gamma \sum_{s^{\prime} \in \cal{S}} P(s^{\prime}|s,a)v_{k+1}(s^{\prime})

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 218,036评论 6 506
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,046评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 164,411评论 0 354
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,622评论 1 293
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,661评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,521评论 1 304
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,288评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,200评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,644评论 1 314
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,837评论 3 336
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,953评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,673评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,281评论 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,889评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,011评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,119评论 3 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,901评论 2 355