11.基于模型的强化学习

基于模型的强化学习（Model-Based Reinforcement Learning）

本节主要介绍基于模型的强化学习，主要包括

基本的基于模型的强化学习算法：如何学习模型，使用模型进行控制
讨论基于模型强化学习算法的不确定性（uncertainity）
讨论基于模型强化学习算法在复杂观测中的情况

一、原始模型(Naive model)

如果我们知道 $f(s_t,a_t)=s_{t+1}$ （或者 $p(s_{t+1}|s_t,a_t)$ 为随机的情况），原始算法最直观的思路是：首先运行策略，通过与环境交互获得数据，利用它们去拟合模型，然后通过之前《最优控制与规划》中介绍的方法选择决策动作。其基本流程如下版本０.５的算法．

image.png

这也是在传统机器人领域做系统识别（system identification）的方法，如果能够有精心设计的动态表征（dynamics representation）以及好的基础策略，将非常有利于提高学习速度。

但是这种简单方法的缺点与模仿学习（Imitiation Learning）一样有分布不一致(distribution mismatch)的问题。比如如下这张图，黄色是真实的奖励函数，其曲线先上后掉落。但是基础策略的探索仅仅局限于前面上升的部分，在这个部分学习到的分布与实际的分布的差距很大。

image.png

联系到在模仿学习中的DAgger算法，其通过人工对新的数据进行再标记，从而修正这种问题。在这里同样可以采用这样的思路，DAgger是数据的标签不准确，而此处是模型不准确。如果我们可以根据实时返回的新数据进行模型的更新，就可以保证数据的正确性，这样就产生如下版本１.5的算法。

image.png

这里还是存在一个问题，正常情况下是要对模型进行一个完整的规划过程，然后将所有的决策动作执行完才进行下次的拟合，也就是个开环（open-loop）规划的形式。由于模型存在误差，则会导致规划的误差累计，从而使得规划后面的数据质量变差。

image.png

二、重新规划（Replan）

基于上面的问题，引入replan，每次规划后的结果只选择第一个动作执行，然后重新进行规划：

image.png

这里的重点就在第三步，在第四步执行了首个动作后，将数据添加到缓存中，就可以进行下一次的规划。Replan进行得越多，对于模型以及单次规划的质量要求就更低。在很多时候，即使只是随机采样（random sampling）都可以达到不错的效果。

三、强化学习中的不确定性（ Uncertainty in model-based RL）

直观解释

先从直觉上来看看不确定性,前面引入了replan版的MBRL算法，看起来似乎是很完美，而在实际试验中会发现它往往效果都比较差，如下图：

image.png

这篇Nagabandi, Kahn, Fearing, L. ICRA 2018的图是在Cheetah环境上跑的结果，前面绿色是纯model-based的结果，它已经陷入了局部最优，而经过distillation处理之后训练一个model-free的模型，会发现它其实比纯model-free效果要好，说明它其实是有学习的潜力在里面的。但是为什么会停止在这个点呢？一个解释是，在前面的规划中由于model存在误差，而由于规划的时候都是在最大化奖励值，这往往会使得模型倾向于乐观估计，这个也类似于DQN的over estimation的原理，从而许多时候会作出相对错误的决策。

image.png

如何求解这个问题？后面的主要方法整体而言是基于这样一个观察：对于同一个点（奖励值的理论均值一样），方差比较高的预测的样本累积奖励都比较高。例如下图中，假设目标点处在悬崖边上，对于两个预测模型来说，理论上做动作的平均奖励都是一样的，但是对于方差高的预测模型，那么它会更有可能掉入悬崖中，获得比较低的奖励，从而样本累积奖励会比较低。因此在同一个点，最大奖励是可能一样的，但是平均大则代表方差比较小。

image.png

所以将uncertainty纳入考虑中，利用平均奖励替代最大奖励更有利于降低方差，既不过于乐观，也不过于悲观。

主要思想

在介绍具体的idea之前，首先介绍两种形式的uncertainty，包括statistical uncertainty和model uncertainty。

image.png

前者通常是描述由于数据的统计指标上的问题导致模型的uncertainty，例如如果数据本身噪音比较大，对于一个自变量它的因变量方差很大，那么学习到的模型对点的预测就会存在很大的uncertainty。

而model uncertainty则是形容模型对自己预测的确信程度，它通常从模型本身的性质得到的，例如Gaussion process就是通过在接触过某个区域的点的数量来得到这个区域的uncertainty。在诸如神经网络之类的模型中通常是没有这一项的。

例如在上面的悬崖的例子中，如果使用神经网络来输出，那么它的statistical uncertainty可能会比较小，也就是说它更倾向于乐观估计，选择迈向终点。但是如果在探索次数比较少的情况下，它的model uncertainty其实会是非常大的。

image.png

神经网络输出层使用entropy
第一个想法，就是通过判断output的entropy，也就是描述output的不确定程度，这个其实就是在描述statistical uncertainty，通过上面的描述也知道，仅仅刻画这种uncertainty是不够的，所以需要找到方法刻画model uncertainty，并将两者结合：

image.png

评估模型的不确定性
一般情况下，我们做估计其实是为了达到这么一个目的：

image.png

也就是说参数和数据可以相互生成，给定一批数据，一定可以导出某个参数，给出这个参数，则一定可以生成对应的一批数据，也就是数据与它的分布一一对应。从强化学习的角度来看，可以理解做closed-loop的过程中，通过策略与环境交互得到数据，利用这些数据修正策略，这分别就是右左两遍的式子，最终网络收敛，也就是数据与参数都趋于稳定，最终等号也就成立了。

在这里，如果希望考量model uncertainty，那么可以将前面一部分摘出来，估计利用数据生成一批参数（也就是一个新的模型）的概率，这也就是model uncertainty。

image.png

然后将它与statistical uncertainty结合在一起，得到模型在不同的参数下的期望概率，这也就是将两种uncertainty结合的方法：。

image.png

模型

接下来就介绍两种实现上面主要思想的模型。

贝叶斯神经网络（Bayesian neural networks）
首先就是BNN，在常规的NN中，节点之间相邻的边都是通过weight进行连接的，它是一个数值。而在BNN中则是通过distribution进行相连，每过一条边相当于过一个分布，利用分布的方差，就可以衡量variance：

image.png

通常而言，其中做的approximation就是引入某种分布，并利用分布输出的乘积表征model uncertainty，如下图中分布的mean表示的就是expected weight，variance表征的就是关于weight的uncertainty。

image.png

Bootstrap ensembles
第二种方法则是引入机器学习中常见的ensembles方法：

image.png

通过多个model进行加权，从而减少方差，因此model uncertainty就可以描述为多个predict的mean：

image.png

而整体刻画也即是output的mean：

image.png

它需要注意的是不同的模型之间是要独立的，故而数据也是要独立的，在传统方法中通常用sampled with replacement的方式，也就是有放回重采样的方式保证independent。而在神经网络中，由于随机初始化，以及SGD本身的随机性，所以model就以及足够独立的，因此也可以忽略此步。

使用uncertainty做规划
在上面提到的两类模型中，都是经过N个部分的平均得到最终结果，故而整体而言的目标函数转化成了：

image.png

因此整体的流程也就可以描述成如下的形式：

image.png

首先从data生成parameter的分布中采样出一组分布，通过model得到transition，相乘得到probability，计算累积reward，经过多次迭代得到平均累积reward。

四、Latent space models

在前面通过uncertainty的角度来提高算法的表达能力，但是通常就直接假设dynamics的learning是能够做得比较好的，但是在复杂场景中的dynamics学习实际是比较困难的：environment可能是partial observability的，state可能是高维且存在较多冗余的。

image.png

所以在这节中则是会考虑如何从结构设计的角度使得model的学习变得更加容易。

Latent space models

回顾MDP的结构图：

image.png

在partial observability的环境中，agent从environment中获取到的observation后，如果需要建模model，首先要处理得到的信息，需要学习observation model，也就是如何从observation中得到与decision相关的state，这个部分是一个高维到低维的映射。接着基于这个observation model进一步学习dynamics model，得到关于environment如何产生transition的过程，并同时学习reward model，得到关于reward的信息。

在上面的描述中，其实可以看出它的核心步骤是如何做从observation到state的mapping，这个也就是latent space model的名称由来，latent space就是表示state space。

从model fitting的目标函数来看，最基本的方式就是对sample得到的transition做maximum likelihood estimation：

image.png

而在latent space models中，将原始的dynamics拆分成observation model与dynamics model，所以这里需要MLE的是两者的乘积：

image.png

这里的expectation是针对这个分布的：

image.png

如何理解这个sample，它其实就相当于是首先从所有的action和observation中学习到一个关于transition的分布，然后利用这个进行sample。

MBRL with latent space models

** Latent space MBRL with dynamic**
针对上面提到的目标函数来看，它的重点在于如何学习这个分布:

image.png

在常规模式中，通常是学习一个approximate posterior :

image.png

作为一个encoder。

第一个点是学习到这个encoder是怎么用到它的？假设现在有t+1步之前的sample，那么就可以用t步前的sample得到state t，从t-1步前的sample得到state t+1，从而得到同一套的state transition，从而能够近似上面的分布。

第二个点是这个posterior的形式，是否需要condition on这么多输入？这个其实也是类似MC与TD的争议，使用越多的输入，信息越多，自然就越准确，但是学习起来就会比较复杂。在本节中处于简单考虑，我们都假设仅仅使用当前的observation作为输入，从而expectation的对象就变成这种形式：

image.png

讨论完它的形式以及如何使用它，接下来就讨论如何如何学习它。同样也是为了简化讨论，这里假设observation model是deterministic的，也就是observation与state是一一对应的，因此encoder就可以直接转化为function的形式，在lecture14中会具体讨论stochastic case的情况。

image.png

故而目标函数也就转化为，其中的每个部分都是differentiable的，这也就可以直接用BP来训练。

image.png

其中第一部分是通过transition进行约束，第二部分则是通过reconstruction的约束保证映射过程可逆，通常其实可以提高学习的稳定性。

** Latent space MBRL with reward model **
在上节中，利用approximate posterior将MDP做了简化，得到了新的目标函数：

image.png

在这节中，则是考虑引入reward model相关的信息，其实也就是在目标中加了reward model相关的学习：

image.png

将它嵌入前面的model-based RL的流程中，这节其实就是考虑到observation的复杂性，利用latent space的方法，将步骤二的fit model变得更容易学习了：

image.png

最后编辑于：2020.01.17 12:50:20

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 214,658评论 6赞 496
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,482评论 3赞 389
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 160,213评论 0赞 350
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,395评论 1赞 288
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,487评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,523评论 1赞 293
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,525评论 3赞 414
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,300评论 0赞 270
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,753评论 1赞 307
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,048评论 2赞 330
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,223评论 1赞 343
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,905评论 5赞 338
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,541评论 3赞 322
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,168评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,417评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,094评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,088评论 2赞 352

11.基于模型的强化学习

基于模型的强化学习（Model-Based Reinforcement Learning）

一、原始模型(Naive model)

二、重新规划（Replan）

三、强化学习中的不确定性（ Uncertainty in model-based RL）

直观解释

主要思想

模型

四、Latent space models

Latent space models

MBRL with latent space models

推荐阅读更多精彩内容