强化学习基础篇（三十二）基于模型的强化学习算法

在策略梯度算法中，智能体是直接从经验中去学习策略。之前value-based的方法中，智能体是直接从经验中去学习价值函数（value function），这节我们介绍的基于模型的强化学习算法，是让智能体先去从经验中去学习模型，然后使用规划的方法去构建价值函数或策略。

1、Model-Free与Model-Based强化学习

Model-Free强化学习是智能体没有模型的相关信息，从经验中却学习价值函数与策略。智能体直接与真实环境进行交互。

image.png
Model-Based强化学习是智能体从经验中学习模型，然后从模型去规划价值函数和策略。智能体直接与模拟环境进行交互。

image.png

也可以按照下面的图形来表示：

image.png

2、基于模型的强化学习的算法的优劣

基于模型当前强化学习算法的优点是，我们能够通过监督学习高效率地习得模型，并且由于已知模型的形式，我们可以推断该模型的不确定程度。其缺点是它将引入模型的误差，加上我们值函数估计的误差，这就有了两个误差源。

3、模型的学习

模型

对于环境建模实际上就是建立MDP模型 $<S,A,P,R>$ 。MDP模型通常包括状态集S，动作集A，转移概率矩阵P以及奖励函数R。一般我们默认智能体是知道状态集S、动作集A的全部信息的，所以我们所谓的对环境建模也就变成了求取P与R：
$S_{t+1} \sim \mathcal{P}_{\eta}\left(S_{t+1} \mid S_{t}, A_{t}\right)$

$R_{t+1}=\mathcal{R}_{\eta}\left(R_{t+1} \mid S_{t}, A_{t}\right)$

这里，我们假定状态转移分布与奖励分布是独立的：
$\mathbb{P}\left[S_{t+1}, R_{t+1} \mid S_{t}, A_{t}\right]=\mathbb{P}\left[S_{t+1} \mid S_{t}, A_{t}\right] \mathbb{P}\left[R_{t+1} \mid S_{t}, A_{t}\right]$
注意，R与值函数V是不一样的，R指的是简单的reward函数，比如下棋，开始一直为0，最后赢了为1，输了为0.而V则会将最后的奖励向前面的状态进行折算。

学习模型

模型学习是通过监督学习的方法进行学习的：
$\begin{aligned} S_{1}, A_{1} & \rightarrow R_{2}, S_{2} \\ S_{2}, A_{2} & \rightarrow R_{3}, S_{3} \\ \vdots & \\ S_{T-1}, A_{T-1} & \rightarrow R_{T}, S_{T} \end{aligned}$
我们学习奖励函数的过程 $s,a \rightarrow r$ 是一个回归的问题(regression)，并使用MSE作为损失函数，在最小化经验损失的过程总找到奖励函数模型的参数 $\eta$ 。

学习转移概率 $s,a \rightarrow s'$ 是一个密度估计问题（density estimation），使用KL散度作为损失函数，在最小化经验损失的过程总找到转移概率模型的参数 $\eta$ 。

因为是一个监督学习问题，所以我们需要指定假设空间（也即模型的学习范围），比如Table Lookup Model、Linear Expectation Model、Linear Gaussian Model、Gaussian Process Model、Deep Belief Network Model等。下面我们以Table Lookup Model为例来说说如何学习一个模型，并利用该模型进行规划。

Table Lookup模型的学习

Table Lookup模型的学习可以直接对访问到的 $(s,a)$ 对进行计数来计算转移概率与奖励函数：
$\begin{aligned} \hat{\mathcal{P}}_{s, s^{\prime}}^{a} &=\frac{1}{N(s, a)} \sum_{t=1}^{T} \mathbf{1}\left(S_{t}, A_{t}, S_{t+1}=s, a, s^{\prime}\right) \\ \hat{\mathcal{R}}_{s}^{a} &=\frac{1}{N(s, a)} \sum_{t=1}^{T} \mathbf{1}\left(S_{t}, A_{t}=s, a\right) R_{t} \end{aligned}$

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,576评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,515评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 168,017评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,626评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,625评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,255评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,825评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,729评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,271评论 1赞 320
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,363评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,498评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,183评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,867评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,338评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,458评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,906评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,507评论 2赞 359

强化学习基础篇（三十二）基于模型的强化学习算法

强化学习基础篇（三十二）基于模型的强化学习算法

1、Model-Free与Model-Based强化学习

2、基于模型的强化学习的算法的优劣

3、模型的学习

模型

学习模型

Table Lookup模型的学习

推荐阅读更多精彩内容