近端策略优化算法(PPO)

首先我们回顾一下“策略梯度方法(PG)”和“信赖域策略优化(TRPO)”。
1.策略梯度方法(PG)
策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。 最常用的梯度估计形式为:
\hat{\mathbb{E}}_t\left[\nabla_\theta\log \pi_\theta(a_{t}|s_{t})\hat{A}_t\right] \tag{1}

其中\pi_\theta为随机策略,\hat{A}_t是优势函数在时间步t的估计,在使用自动微分器时,我们的损失函数为:
L^{PG}(\theta)=\hat{\mathbb{E}}_t\left[\log \pi_\theta(a_{t}|s_{t})\hat{A}_t\right]\tag{2}

2.信赖域策略优化(TRPO)

TRPO要优化的目标函数如下:
maximize_{\theta}\hat{\mathbb{E}}_t\left[\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}\hat{A}_t\right]\tag{3}

\\ subject\ to\ \hat{\mathbb{E}}_t\left[KL\left[\pi_{\theta_{old}}\left(\cdot |s_t\right)||\pi_{\theta}\left(\cdot |s_t\right)\right]\right]\le\delta

3.近端策略优化算法(PPO)

PPO1:截断替代目标

首先,我们令r_t(\theta)=\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)},所以r(\theta_{old})=1TRPO的替代目标为
L^{CPL}(\theta)=\hat{\mathbb{E}}_t\left[\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}\hat{A}_t\right]=\hat{\mathbb{E}}_t\left[r_t(\theta)\hat{A}_t\right] \tag{4}

上标CPI指的是TRPO中的保守政策迭代,如果没有约束,最大化L^{CPL}将会导致非常大幅度的梯度更新。为了惩罚策略的变化(即r_t(\theta)远离1,即新旧策略的KL 散度不能太大),提出了如下的目标
L^{CLIP}(\theta)=\hat{\mathbb{E}}_t\left[ min(r_t(\theta)\hat{A}_t ,clip(r_t(\theta),1-\varepsilon,1+\varepsilon)\hat{A}_t)\right] \tag{5}

论文中\epsilon=0.2,直观示意图如下

PPO.jpg

该算法的意思为:
当A>0时,如果r_t(\theta)>1+\epsilon,则L^{CLIP}(\theta)=(1+\epsilon)\hat{A}_t;如果r_t(\theta)<1+\epsilon,则L^{CLIP}(\theta)=r_t(\theta)\hat{A}_t;

当A<0时,如果r_t(\theta)>1-\epsilon,则L^{CLIP}(\theta)=r_t(\theta)\hat{A}_t;如果r_t(\theta)<1-\epsilon,则L^{CLIP}(\theta)=(1-\epsilon)\hat{A}_t;

PPO2:自适应KL惩罚系数

TRPO中,使用“自适应惩罚系数 ”\beta 来约束KL散度,在此算法的最简单实例中,我们在每个策略更新中执行以下步骤:

  • 使用多个的minibatch SGD,优化KL惩罚的目标

L^{KLPEN}(\theta)=\hat{\mathbb{E}}_t\left[\frac{\pi_{\theta}\left(a_t|s_t\right)}{\pi_{\theta_{old}}\left(a_t|s_t\right)}\hat{A}_t-\beta \ KL\left[\pi_{\theta_{old}}\left(\cdot |s_t\right),\pi_{\theta}\left(\cdot |s_t\right)\right]\right] \tag{6}

  • 计算d=\hat{\mathbb{E}}_t\left[KL\left[\pi_{\theta_{old}}\left(\cdot |s_t\right),\pi_{\theta}\left(\cdot |s_t\right)\right]\right]
    • 如果d<d_{targ}/1.5\beta\leftarrow \beta/2

    • 如果d>d_{targ}\times1.5\beta\leftarrow \beta\times2

实验中,PPO2的效果没有PPO1的效果好

4.算法
L^{CLIP+VF+S}_t(\theta) = \hat{E}_t\left[L^{CLIP}_t(\theta)−c_1L^{VF}_t(\theta)+c_2S[\pi_\theta](s_t)\right]

其中c_1c_2是系数,S表示熵奖励,L^{VF}_t是平方误差损失
(V_\theta(s_t)-V^{targ}_t)^2

优势估计函数为
\hat{A}_{t}=-V\left(s_t\right)+r_t+\gamma r_{t+1}+...+\gamma^{T-t+1}r_{T-1}+\gamma^{T-t}V\left(s_{T}\right) \tag{7}

另外,我们可以使用广义优势函数来扩广\hat{A}_{t},当λ= 1时,它会趋近到等式(7)
\hat{A}_{t}=\delta_t+(\gamma\lambda) \delta_{t+1}+...+...+(\gamma\lambda)^{T-t+1}\delta_{T-1} \tag{8} \\where\ \delta_t=r_t+\gamma V(s_{t+1})-V(s_{t})

使用固定长度轨迹段的近端策略优化(PPO)算法如下所示。 每次迭代时,N个actor中的每个都收集T个时间步长的数据。 然后我们在这些NT时间步长的数据上构建替代损失,并使用 minibatch SGD(或通常为了更好的性能,Adam )进行K个epochs的优化。


PPOA.jpg
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容