近端策略优化算法(PPO)

首先我们回顾一下“策略梯度方法（PG）”和“信赖域策略优化（TRPO）”。
1.策略梯度方法（PG）
策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。最常用的梯度估计形式为：
$\hat{\mathbb{E}}_t\left[\nabla_\theta\log \pi_\theta(a_{t}|s_{t})\hat{A}_t\right] \tag{1}$

其中 $\pi_\theta$ 为随机策略， $\hat{A}_t$ 是优势函数在时间步 $t$ 的估计，在使用自动微分器时，我们的损失函数为：
$L^{PG}(\theta)=\hat{\mathbb{E}}_t\left[\log \pi_\theta(a_{t}|s_{t})\hat{A}_t\right]\tag{2}$

2.信赖域策略优化（TRPO）

$TRPO$ 要优化的目标函数如下：
$maximize_{\theta}\hat{\mathbb{E}}_t\left[\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}\hat{A}_t\right]\tag{3}$

$\\ subject\ to\ \hat{\mathbb{E}}_t\left[KL\left[\pi_{\theta_{old}}\left(\cdot |s_t\right)||\pi_{\theta}\left(\cdot |s_t\right)\right]\right]\le\delta$

3.近端策略优化算法(PPO)

PPO1：截断替代目标

首先，我们令 $r_t(\theta)=\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}$ ，所以 $r(\theta_{old})=1$ 。 $TRPO$ 的替代目标为
$L^{CPL}(\theta)=\hat{\mathbb{E}}_t\left[\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}\hat{A}_t\right]=\hat{\mathbb{E}}_t\left[r_t(\theta)\hat{A}_t\right] \tag{4}$

上标 $CPI$ 指的是 $TRPO$ 中的保守政策迭代，如果没有约束，最大化 $L^{CPL}$ 将会导致非常大幅度的梯度更新。为了惩罚策略的变化（即 $r_t(\theta)$ 远离1，即新旧策略的KL 散度不能太大），提出了如下的目标
$L^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[ min(r_t(\theta)\hat{A}_t ,clip(r_t(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_t)\right] \tag{5}$

论文中 $\epsilon=0.2$ ，直观示意图如下

PPO.jpg

该算法的意思为：
当A>0时，如果 $r_t(\theta)>1+\epsilon$ ，则 $L^{CLIP}(\theta)=(1+\epsilon)\hat{A}_t$ ；如果 $r_t(\theta)<1+\epsilon$ ，则 $L^{CLIP}(\theta)=r_t(\theta)\hat{A}_t$ ;

当A<0时，如果 $r_t(\theta)>1-\epsilon$ ，则 $L^{CLIP}(\theta)=r_t(\theta)\hat{A}_t$ ；如果 $r_t(\theta)<1-\epsilon$ ，则 $L^{CLIP}(\theta)=(1-\epsilon)\hat{A}_t$ ;

PPO2：自适应KL惩罚系数

在 $TRPO$ 中，使用“自适应惩罚系数 ” $\beta$ 来约束KL散度，在此算法的最简单实例中，我们在每个策略更新中执行以下步骤：

使用多个的minibatch SGD，优化KL惩罚的目标

$L^{KLPEN}(\theta)=\hat{\mathbb{E}}_t\left[\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}\hat{A}_t-\beta \ KL\left[\pi_{\theta_{old}}\left(\cdot |s_t\right),\pi_{\theta}\left(\cdot |s_t\right)\right]\right] \tag{6}$

计算
- 如果 $d<d_{targ}/1.5$ ， $\beta\leftarrow \beta/2$
- 如果 $d>d_{targ}\times1.5$ ， $\beta\leftarrow \beta\times2$

实验中，PPO2的效果没有PPO1的效果好

4.算法
$L^{CLIP+VF+S}_t(\theta) = \hat{E}_t\left[L^{CLIP}_t(\theta)−c_1L^{VF}_t(\theta)+c_2S[\pi_\theta](s_t)\right]$

其中 $c_1$ ， $c_2$ 是系数， $S$ 表示熵奖励， $L^{VF}_t$ 是平方误差损失
$(V_\theta(s_t)-V^{targ}_t)^2$

优势估计函数为
$\hat{A}_{t}=-V\left(s_t\right)+r_t+\gamma r_{t+1}+...+\gamma^{T-t+1}r_{T-1}+\gamma^{T-t}V\left(s_{T}\right) \tag{7}$

另外，我们可以使用广义优势函数来扩广 $\hat{A}_{t}$ ，当λ= 1时，它会趋近到等式（7）
$\hat{A}_{t}=\delta_t+(\gamma\lambda) \delta_{t+1}+...+...+(\gamma\lambda)^{T-t+1}\delta_{T-1} \tag{8} \\where\ \delta_t=r_t+\gamma V(s_{t+1})-V(s_{t})$

使用固定长度轨迹段的近端策略优化（PPO）算法如下所示。每次迭代时，N个actor中的每个都收集T个时间步长的数据。然后我们在这些NT时间步长的数据上构建替代损失，并使用 minibatch SGD（或通常为了更好的性能，Adam ）进行K个epochs的优化。

PPOA.jpg

最后编辑于：2020.05.28 18:29:39

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,366评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,521评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,689评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,925评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,942评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,727评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,447评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,349评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,820评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,990评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,127评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,812评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,471评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,017评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,142评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,388评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,066评论 2赞 355

近端策略优化算法(PPO)

推荐阅读更多精彩内容