登录注册写文章

Policy Gradient CartPole-v0

Policy Gradient CartPole-v0

这是我使用Policy Gradient来解决CartPole-v0任务的一个总结，参考了莫烦博客，Andrej Karpathy博客及其翻译版，建议先看懂Andrej Kapathy的博客中关于Policy Gradient的讲解，再结合莫烦博客里的内容自己实现一遍。
我对Policy Gradient的理解及解决CartPole的方式如下：

理解Policy Gradient

我认为Policy Gradient是在做这样一件事情：优化遇到状态(state)时的动作(action)选择方式，即Policy。
具体到CartPole这个任务中：
- 遇到了一个state(这个state有4个参数，分别表示Cart Position、Cart Velocity、Pole Position和Pole Velocity at Tip，所以用一个4维向量表示一个state:(cp,cv,pp,pv))。
- 我们要根据自己的Policy来对处理state并作出action的选择，我最初的时候对Policy这个概念无法接受，这一步令我非常困惑，但其实所谓的Policy就是state的4个分量(Component)的组合方式，比如，我们将组合方式定位线性组合(Linear Combination)，

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

增强学习（一）
一. 增强学习简介 1.1 什么是增强学习？机器学习的算法可以分为三类：监督学习，非监督学习和增强学习。增强学...
阿阿阿阿毛阅读 31,483评论 0赞 25
或许，所有人都在伪装坚强
这两天胖子和我们玩消失了，发微信不回，打电话不接，发美食照片诱惑她她也不回了，我们慌了，那个一直乐观向上的胖子怎么...
倚小白阅读 2,875评论 1赞 2

回忆.声音
深林的秘处，总有你的声音，如此隐秘，让人回忆。无人的小镇，总有你的声音，如此动人，勾勒回忆。太阳升...
落叶离别人心阅读 1,495评论 0赞 0
《跟着党走当家作主》
被现实生活压迫的人们胸口的呼息异常的疼痛，身体的上下部份戴着沉重的铁链和牢固的手镣但是，追求自由与...
坡山俯愿君阅读 1,306评论 1赞 1
没有排行榜的徽章系统，是你会怎样设计？
最近接手一个活，是设计徽章系统的。PM还没有整理完需求，于是自己先搭了一个最基础的框架，然后顺着市场上现有产品的思...
阁主的叨叨阅读 5,251评论 0赞 5

赞1赞

赞赏

手机看全文