马尔可夫决策过程

四要素，SMAR-P

state 状态，系统的状态集合

model 模型状态经过动作后的转移 T(S,a,S')

action 可以执行的动作集合

reward 某个动作的奖励，可以是R(s),R(s,a),R(s,a,s')

这样的一个过程，要求解的是一个行动策略

P(s)->a, 使得奖励最大化。隐含的假设是时间无尽

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

David Silver深度强化学习第2课-马尔可夫决策过程
看了David Silver深度强化学习课程，感觉收获很多呀，第二讲主要讲的是马尔可夫决策过程，借着写文档的机会，...
文哥的学习日记阅读 3,284评论 1赞 14
增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,725评论 0赞 25

2017！
城市里的人用烟火迎接了新的一年。手机的提醒信息正一条条刷满屏幕；嗯，2016结束了。这一年遇见的人，经历的事就在这...
小小月二号阅读 283评论 0赞 1
【读书清单002】跃迁（1）
《跃迁》我刚看到第100页，先来总结10条，希望对你有用。 001 用投资的心态看待人生比如我有100元钱，可以...
海南小帅阅读 278评论 3赞 5
教程 | 三步画出超萌简笔画（1）
简笔画就是利用极简单的点、线、面等绘画要素，把复杂的形体高度概括地简化成方形、圆形、三角形等基本形(或基本形的变形...
快乐玩绘本阅读 1,353评论 1赞 5

赞1赞

赞赏

手机看全文