Day19 #100DaysofMLCoding#

2018-12-16

今日所学

MDP(S,A,P,γ,R)算法（两种，适合于状态S有限个）

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,506评论 0赞 25
猿学－用蒙特卡罗法（MC）求解
由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大...
猿学阅读 4,320评论 0赞 0

机器学习笔记15: 马尔可夫决策过程(上)
这一节开始我们介绍强化学习(reinforcement learning)。在监督学习中，对于一个给定的输入x，我...
secondplayer阅读 9,330评论 0赞 1
读懂AlphaGo背后的强化学习
姓名：周小蓬 16019110037 转载自：http://blog.csdn.net/qq_40027052/a...
aeytifiw阅读 3,097评论 0赞 0
我们是如何把生活过成悲剧的
专制或者什么
jiayouxionghaiz阅读 734评论 0赞 0

赞1赞

赞赏

手机看全文