强化学习的policy-based算法

一、目标概述

就是如何通过深度学习,训练得到actor(执行者,机器人)或policy(策略)。我们把actor/policy记作\pi,actor根据环境给出下一步的行动或行动概率,即action = \pi(state).

actor/policy.png

二、期望回报的原理

\theta是神经网络\pi的参数,记作\pi_{\theta}(s),我们用这个actor去玩游戏:

  • 看到现状s_1 ,采取动作a_1, 获得奖励r_1
  • 看到现状s_2 ,采取动作a_2, 获得奖励r_2
    ……
  • 看到现状s_T ,采取动作a_T, 获得奖励r_T

总得分: R_{\theta}=\sum_{t=1}^{T}r_t
但是即使是\theta不变,State也是具有随机性的,每轮游戏的得分R_{\theta}还是不一样的,因此我们用得分的平均数(期望)\overline{R}_{\theta}来评估\theta的性能
定义: 我们把一轮游戏记作一个\tau,一轮游戏的得分记作R(\tau)=\sum_{t=1}^{T}r_t,再考虑上actor的参数\theta,那么各种游戏场面出现的概率也是依赖于\theta的,最后“期望回报”其实是一个概率加权平均\overline{R}_{\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)
近似:我们怎么获得p(\tau|\theta)呢?那就让\pi_{\theta}(s)去玩好多次游戏,得到{\tau_1},{\tau_2}……,\tau_n经过统计就知道游戏各场面出现的概率p(\tau|\theta),代入上面式子就会发现:
\overline{R}_{\theta}=\sum_{\tau}R(\tau)p(\tau|\theta)\approx \frac{1}{N}\sum_{n=1}^{N}R(\tau_n)(中心极限定理:样本的平均值约等于总体的平均值。 不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。)

三、策略梯度

最优参数\theta^{*}=arg\max_{\theta}\overline{R}_{\theta}
梯度下降(gradient ascent):

  • start with \theta_0
  • \theta_1=\theta_0+\eta\nabla\overline{R}_{\theta_0}
  • \theta_2=\theta_1+\eta\nabla\overline{R}_{\theta_1}
    ……

\theta=\{w_1,w_2……,b_1,b_2……\}
\nabla\overline{R}_{\theta}=[\partial{\overline{R}_{\theta}}/\partial{w_1},\partial{\overline{R}_{\theta}}/\partial{w_2},…\partial{\overline{R}_{\theta}}/\partial{b_1},…]
上面这个式子是原理,实际上计算或编程的时候,怎么算呢?
\frac{dlog(f(x))}{dx}=\frac{1}{f(x)}\frac{df(x)}{dx}
所以:
\nabla\overline{R}_{\theta}=\sum_{\tau}R(\tau)\nabla p(\tau|\theta)=\sum_{\tau}R(\tau)p(\tau|\theta)\frac{\nabla p(\tau|\theta)}{p(\tau|\theta)}\approx \frac{1}{N}\sum_{n=1}^{N}R(\tau_n)\nabla logp(\tau_n|\theta)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容