首先我们回顾一下“策略梯度方法(PG)”和“信赖域策略优化(TRPO)”。
1.策略梯度方法(PG)
策略梯度方法通过计算策略梯度的估计并利用随机梯度上升算法来工作。 最常用的梯度估计形式为:
其中为随机策略,
是优势函数在时间步
的估计,在使用自动微分器时,我们的损失函数为:
2.信赖域策略优化(TRPO)
要优化的目标函数如下:
3.近端策略优化算法(PPO)
PPO1:截断替代目标
首先,我们令,所以
。
的替代目标为
上标指的是
中的保守政策迭代,如果没有约束,最大化
将会导致非常大幅度的梯度更新。为了惩罚策略的变化(即
远离1,即新旧策略的KL 散度不能太大),提出了如下的目标
论文中,直观示意图如下
PPO.jpg
该算法的意思为:
当A>0时,如果,则
;如果
,则
;
当A<0时,如果,则
;如果
,则
;
PPO2:自适应KL惩罚系数
在中,使用“自适应惩罚系数 ”
来约束KL散度,在此算法的最简单实例中,我们在每个策略更新中执行以下步骤:
- 使用多个的minibatch SGD,优化KL惩罚的目标
- 计算
如果
,
如果
,
实验中,PPO2的效果没有PPO1的效果好
4.算法
其中,
是系数,
表示熵奖励,
是平方误差损失
优势估计函数为
另外,我们可以使用广义优势函数来扩广,当λ= 1时,它会趋近到等式(7)
使用固定长度轨迹段的近端策略优化(PPO)算法如下所示。 每次迭代时,N个actor中的每个都收集T个时间步长的数据。 然后我们在这些NT时间步长的数据上构建替代损失,并使用 minibatch SGD(或通常为了更好的性能,Adam )进行K个epochs的优化。
PPOA.jpg