有限马尔科夫决策过程

增强学习的方法就是用来解决马尔科夫决策过程。马尔科夫决策过程描述的是agent和environment的交互过程。

image.png

在时间序列0,1,..t,的时候,agent获得环境的状态St,然后选择动作At,然后会做出反应,环境返回一个reward,R(t+1)。而agent依据一个规则选择action,这个规则就叫做policy,记做pi(a|s). agent的目标是最大化一个长期的total reward。定义为Gt:

image.png

在马尔科夫决策过程中,时间序列会在某个状态中断,比如说赢了游戏,走出迷宫。这个序列定义为episode. 有些没有自然断开的序列,叫做continuing tasks。在实际的应用中,返回的收益是随着时间衰减的,叫做discounted return:


image.png

而agent在做出action的时候,往往优化的是discount return。

马尔科夫特性

马尔科夫过程中,state表示过去的所有的相关的信息。A state signal that succeeds in retaining all relevant
information is said to be Markov, or to have the Markov property。

马尔科夫决策过程定义:

A reinforcement learning task that satisfies the Markov property is called a Markov
decision process, or MDP. If the state and action spaces are finite, then it is called a
finite Markov decision process (finite MDP)

value function

all reinforcement learning algorithms involve estimating value functions---functions of states (or of state-action pairs) that estimate how good it is for the agent to be in a given state.

image.png

表示的是在policy pi下,在state s的value值
同理可知,在state s,policy pi,采取action a的情况下的value值:

image.png

动态规划可知value function的迭代公式:

image.png

图标看起来更清晰:

image.png

最优value function

在所有的策略中,有一个策略在所有的状态中,value值都大于等于其他策略,这个策略成为最优策略。或者一组最优策略,最优策略都遵循相同的value function

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,396评论 0 25
  • 请看原文强化学习读书笔记 - 03 - 有限马尔科夫决策过程
    绿巨人Steven阅读 245评论 0 1
  • 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
    我偏笑_NSNirvana阅读 14,116评论 2 64
  • 几天作业虽少,但做到九点多才全做完。困死我了!今天好想跟爸爸妈妈睡一起,爸爸说要开空调,凉快!
    79977dcb2506阅读 510评论 0 0
  • 不知道为什么 两年一直很丧 一直感觉自己好low 太差劲了 做什么都不行 什么都坚持不下来 学习也不努力 等等等等...
    onlyCF阅读 143评论 0 0