MDP

定义

包含以下四5部分的系统称为马尔科夫决策过程:

  1. 状态
  2. 模型(也就是Transition model/function, 必须满足两个属性 1. 静态,也就是指model-based?2. 马尔科夫性)
  3. 动作
  4. 奖励
  5. 策略,策略就是1-4步形成的问题的解!

注意模型需要满足2中的两个特性。

image.png

Q:如何理解策略?
A:策略就是一个函数映射Pi,Pi(s)->a,该映射将给定状态s映射为一个动作a
Q:强化学习和监督学习的区别?
Q:什么是Plan,和Policy的区别是?
A:Plan是状态到序列的映射,而Policy是状态到动作的映射。具体说,Plan将给定的一个状态s,映射为一个动作序列。在MDP中,我们求解的对象时Policy而不是Plan,只要有了Policy,肯定就万事大吉了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容