登录注册写文章

MDP

MDP

定义

包含以下四5部分的系统称为马尔科夫决策过程：

状态
模型（也就是Transition model/function, 必须满足两个属性 1. 静态，也就是指model-based？2. 马尔科夫性）
动作
奖励
策略，策略就是1-4步形成的问题的解！

注意模型需要满足2中的两个特性。

image.png

Q:如何理解策略？
A:策略就是一个函数映射Pi，Pi(s)->a,该映射将给定状态s映射为一个动作a
Q:强化学习和监督学习的区别？
Q:什么是Plan，和Policy的区别是？
A:Plan是状态到序列的映射，而Policy是状态到动作的映射。具体说，Plan将给定的一个状态s，映射为一个动作序列。在MDP中，我们求解的对象时Policy而不是Plan，只要有了Policy，肯定就万事大吉了。

最后编辑于：2017.12.07 05:58:13

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

强化学习[理论篇]——MDP与强化算法
Preface 这里开始强化学习的理论内容。虽然比较简单，但是强化学习的入门基础。在有监督学习里面，我们有明确的目...
Salon_sai阅读 11,970评论 0赞 2
#David Silver Reinforcement Learning # 笔记2-MDP
这节课同样讲的一些基础概念，为之后的课程做铺垫。马尔科夫过程（Markov Processes） S是一个有限的...
feiyu87阅读 4,567评论 0赞 1

增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,520评论 0赞 25
女神是怎样追到手的
最近在读一本书，叫《魔鬼搭讪学》，它的作者叫魔鬼咨询师，真名叫阮琦。看这本书的原因是因为看了《罗辑思维》的一期视频...
冰雪倾心阅读 4,042评论 24赞 24
iOS 导航控制器如何随意push和pop
iOS 导航控制器如何随意push和pop 第一次开始写技术文章，请同学们多多关照，有错的地方请给我指出，大家学习...
Ashen阅读 11,102评论 11赞 30

赞1赞

赞赏

手机看全文