Reinforcement Learning - Chapter 3


强烈推荐结合《Reinforcement Learning:An Introduction》Second edition阅读!!!


Finite Markov Decision Process

3.1 The Agent-Environment InterFace

马尔可夫决策过程是指将来的决策仅取决于当前的状态与选择。

3.2 Goal and Rewards

Rewards是影响决策的重要因素,但不是决定因素。

3.3 Return and Episodes

这几节都是基础介绍,但3.3节开始有的概念容易混淆,这里简单阐述一下。
Return和之前说的Value还是有点不一样的。具体来说Return可以理解为一系列具体动作得到奖励Reward的加权和。


eq3_7.JPG

当然,上式实在有限(infinite)马尔可夫过程中,要是无限过程中,这个Return不得无穷大了。所以对于无限过程中,通过等比递减数列加权即可,公式如下:


eq3_8.JPG

(注:“无限”过程这个词可能不太妥,主要是为了和“有限”对应。严谨的说是连续过程(continuing task),因为连续过程不是step by step的episode,所以他的返回值个数趋向于无穷多个)

3.4 Unified Notation for Episodic and Continuing Tasks

上面说了有限过程与连续过程,有两个公式,为了方便,统一成了一个,如下:


eq3_11.JPG

3.5 Policies and Value Functions

决策的衡量指标是通过value来评价,value是指在当前的状态下未来获得奖励的期望和,也就是以后平均可以得到多少奖励。

value可通过Bellman equation计算得到,公式和推导过程如下:
eq3_14.jpg

eq3_14(2).jpg

(注:字较丑,但内容还是不错的。)
可以看到求v(s)必须先求v(s'),也就是说要求现在的价值必须先计算以后的价值,然后倒着计算回来,所以文章称之为backup operations以及backup diagrams。
注意推导过程图片最后一行,明确v(s)与q(s,a)的关系。

3.6 Optimal Policies and Optimal Value Functions & 3.7 Optimality and Approximation & Summary

决策的原则就是最大化value,理论上通过Bellman Equation就可以计算得到value,但在实际应用不大。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • rljs by sennchi Timeline of History Part One The Cognitiv...
    sennchi阅读 7,448评论 0 10
  • 家庭生活中,除了繁琐的家务以外,还有许多零碎的事情需要打理,比如开关各种电器、调节空调温度、给孩子听写讲故事等等,...
    麦客加阅读 282评论 0 0
  • 當我們經歷過強度密集度非常高的活動—年會,通常結束當下,許多人都會有種好像很多話想說,卻又憋不出幾個字的感受;用社...
    YolandaLIUsh阅读 451评论 6 0
  • 一、饺子 1、翡翠白玉白菜水饺: 白菜水饺,取“百财”的好兆头。用菠菜汁做出翡翠白玉的造型,还可以用其他果蔬汁做出...
    潇湘妃子JC阅读 268评论 2 0