Lecture 5 Model Free Control

Model Free Control

Target: 将一个Agent放入完全未知的环境中,如何将奖励最大化。

image.png
image.png

简单回顾

image.png
  1. on-policy 学习从该策略下采样产生的样本,同时更新策略。
  2. off-policy 学习其他策略写(经验)产生的样本,用于更细策略。


    image.png
  3. 类似于 GPI,向上评估policy,向下生成新的policy,其中评估算法和更新算法都可以替代后用于model-free.


    image.png
  4. 例如将评估过程换成MC方法,及计算想要评估轨迹的均值取代期望价值,并应贪婪算法更新Policy。


    image.png
  5. 然而在使用贪婪策略更新policy时,需要知道MDP模型,所以用于model-free模型时,使用实际行为函数值Q进行替代,从而可以使用贪婪策略,Q告诉我们在一个状态下,采取各个行为有多好,所以我们需要做的只是选择一个action,然后将其函数值Q(s, a)最大化。
    image.png
  6. 使用MC方法,Q=q_\pi。但是贪婪算法不能保证我们看到全部状态,无法进行准确的估计,我们必须保证看到了环境的全局。
    image.png
  7. 使用MC方法和贪婪方法进行GPI,就会永远只开右边的门,获得+2的奖励,因为你不知道模型,所以就会陷入你认为正确的局部最优。


    image.png
  8. 为了看到全部可能状态,所以用\epsilon-greedy策略。
    image.png
  9. 那么我们采取这个\epsilon-greedy,是否能够得到更好的策略。
  10. 第二行前面是非贪婪选择的值(均值),后面是\epsilon-greedy的结果。
  11. 最后得到Q值,虽然贪婪算法简单,但是的确可以得到更好的结果。


    image.png

    image.png
  12. 实际上不必每次都探索完全部环境再更新,这样可以提高效率。


    image.png

GLIE

  1. 如何确保或者最好的value function 和 policy。


    image.png

    image.png

    image.png

    image.png

Sarsa

  1. 使用TD方法每一步估计Q(s,a),用于评估policy,再使用\epsilon-greedy进行更新policy,这种方法就叫Sarsa。
    image.png

    image.png
image.png
image.png

image.png

image.png

image.png

image.png

image.png
image.png

image.png

image.png

Let we take about off-policy learning

  1. off-policy 的用处
    1.1 用off-policy探索已经探索过得庞大数据库(已经提供最优policy),从而也学习最优策略。
    1.2 获得多重策略,通过学习单一策略。


    image.png
  2. importantce sampling


    image.png
  3. 使用蒙特卡洛方法进行importantce sampling按照完整回合进行更新,每一步都使用了Importance sampling,所以会得到一个无限小的G_t^{\pi/\mu},所以蒙特卡洛方法真的不适合off-policy。
    image.png
  4. 所以你真的需要使用差分时序的方法。利用TD-target改变分配,分配系数是现有策略和环境差异。


    image.png
  5. A_{t+1}是实际世界会采取的活动,A'是遵循目标策略采取的活动。
    image.png
  6. 这就是大名鼎鼎的Q-learning。
  7. 特殊之处就是target policy 和 behaviour policy u 都可以被更新,目标就是一点点的想着Q值最大的方向进行更新。


    image.png

    image.png

    image.png

    image.png

    image.png

    image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,294评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,780评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,001评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,593评论 1 289
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,687评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,679评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,667评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,426评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,872评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,180评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,346评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,019评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,658评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,268评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,495评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,275评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,207评论 2 352

推荐阅读更多精彩内容