基于Policy的强化学习算法

在文章基于Value的强化学习算法中,介绍了Q-learning和SARSA两种经典的强化学习算法。在本篇文章中,将介绍一下基于Policy的经典强化学习算法——Policy Gradient。

Value-based的不足

  1. Value-based强化学习算法,是根据当前状态下的Q值来选取动作去执行。因此,一旦Q值表收敛,那么对于某一个状态s,其选择的动作a将是唯一确定的,即确定性的策略。这就导致其无法解决最优策略是随机策略的强化学习问题,例如猜拳,每次都出锤子当然不是最优解,让对方猜不出的随机策略反而更好一些。

  2. 在受限状态下,Value-based算法表现的不是很好。由于观测手段或者其他一些原因,导致观测到的两个不同的状态却得到了同样的特征,导致选择的策略效果不好。例如猜拳的时候,同一对手在t时刻出了剪刀,在t+1时刻也出了剪刀,如果只考虑对手以及动作,那么在tt+1时刻观察到的特征是一样的。然而,在t+2时刻对手不一定会出剪刀。

  3. 对于连续动作空间的强化学习问题的求解效果不好。因为Value-based算法的动作选择是在动作空间中选择Q值最大的动作,所以需要输出动作空间中每一个动作的Q值。因此,对于动作空间非常大的连续动作空间来说,评估每一个动作的Q值的成本是非常大的。例如方向盘转的角度,随着转动精度的无限提高,动作空间可以趋近于无穷。

Policy Gradient

Policy-based算法的输入和Value-based一样,但是输出的是动作空间中每一个动作被选择的概率,换句话说,输出的是动作空间中动作被选择的概率分布。这时策略函数可以用如下公式表示,其中\theta是要训练的参数:
\pi_\theta(s,a)=P(a|s,\theta)\approx\pi(a|s)
其优化目标有以下三种形式:

  1. 初始状态收获的期望:J_1(\theta)=V_{\pi\theta}(s1)=E_{\pi\theta}(G1)
  2. 状态收获的平均价值:J_{avV(\theta)}(\theta)=\displaystyle\sum_sd_{\pi\theta}V_{\pi\theta}(s),其中d_{\pi\theta(s)}是基于策略\pi_\theta生成的马尔可夫链关于状态的静态分布。
  3. 每个time-step的平均奖励:J_{avR(\theta)=\displaystyle\sum_sd_{\pi\theta}(s)\displaystyle\sum_a\pi_\theta(s,a)R_s^a}

无论哪种形式,根据策略定理,对\theta求导的梯度为:
\triangledown_\theta J(\theta)=E_{\pi\theta}[\triangledown_\theta \log\pi_\theta(s,a)Q_\pi(s,a)]
其中\triangledown_\theta log\pi_\theta(s,a)称为分值函数。

对于\pi_\theta(s,a),在离散空间中常使用softmax函数,使用描述状态和行为的特征\phi(s,a)与参数\theta的线性组合来权衡一个行为发生的几率,即:
\begin{gathered} \pi_\theta(s,a)=\frac{e^{\phi(s,a)^T\theta}}{\displaystyle\sum_be^{\phi(s,b)^T\theta}}\\ \triangledown_\theta \log\pi_\theta(s,a)=\phi(s,a)-E_{\pi\theta}[\phi(s,.)] \end{gathered}
在连续行为空间常用高斯函数,对应的行为从高斯分布N(\phi(s)^T\theta,\sigma^2)中产生,求导之后为:
\triangledown_\theta \log\pi_\theta(s,a)=\frac{(a-\phi(s)^T\theta)\phi(s)}{\sigma^2}
对于目标函数的优化可以采用蒙特卡洛梯度策略算法,使用随机梯度上升法更新参数,使用策略梯度法返回v_t作为Q_\pi(s,a)的无偏估计。算法如下:

image

首先初始化参数\theta,之后对于每一个蒙特卡洛序列,做以下两步:

  1. 用蒙特卡洛计算序列每个时间位置t的状态价值v_t

  2. 对序列每个时间位置t,使用梯度上升法,更新策略函数的参数\theta
    \theta=\theta+\alpha\triangledown_\theta\log\pi_\theta(s_t,a_t)v_t

最后返回策略函数的参数\theta,这个策略函数可以是softmax,也可以是高斯策略或者其他策略。

Policy-based的不足

  1. Policy-based往往收敛于局部最优解而不是全局最优解。
  2. 由于其输出的是动作概率分布,需要基于这个分布对动作进行采样,当动作空间非常大时,成本也比较高。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容