On-Policy与Off-Policy
- 同策略(On-Policy):学习的Agent和与环境互动的Agent是同一个
- 异策略(Off-Policy):学习的Agent和与环境互动的Agent非同一个
- 策略梯度(Policy Gradient,PG)是On-Policy算法
- PG会花很多时间来采样数据,而采样的数据只用一次
- On-Policy→Off-Policy:使用另一个Actor的Policy
与环境进行互动,而
可多次使用
采集到的数据进行梯度提升
- 近端策略优化(Proximal Policy Optimization,PPO)是PG 的一个变形
重要性采样(Importance Sampling,IS)
- 假设不能从p分布中采样数据,希望从另一个分布q采样,通过重要性权重(importance weight)
(
除以
要有意义)来修正两个分布的差异:
- p分布与q分布不能差太多。由上式和方差公式
计算它们的方差:
- 采样次数不够多,
与
可能由很大差距
从On-Policy到Off-Policy
- 采用固定参数
的Policy来与环境互动,采样数据
- 策略梯度:
- 假设
与
差不多?
近端策略优化(Proximal Policy Optimization,PPO)
- 信任区域策略优化(Trust Region Policy Optimization,TRPO)
- KL散度:行为距离(Behavior Distance)
- PPO-Penalty(PPO1)
- PPO1把KL散度放到约束项中
-
可以动态调整(Adaptive KL Penalty)
-
PPO-Clip(PPO2)
PPO-Clip- 当A>0时,state-action是相对好的,希望增加这个state-action的概率,但不能使
太大,限制其比例不大于
;
- 当A<0时,state-action是相对差的,希望减少这个state-action的概率,但不能使
太小,限制其比例不小于
。
- 当A>0时,state-action是相对好的,希望增加这个state-action的概率,但不能使
