Policy Gradient CartPole-v0

  • 这是我使用Policy Gradient来解决CartPole-v0任务的一个总结,参考了莫烦博客Andrej Karpathy博客及其翻译版,建议先看懂Andrej Kapathy的博客中关于Policy Gradient的讲解,再结合莫烦博客里的内容自己实现一遍。
  • 我对Policy Gradient的理解及解决CartPole的方式如下:

理解Policy Gradient

  • 我认为Policy Gradient是在做这样一件事情:优化遇到状态(state)时的动作(action)选择方式,即Policy。
  • 具体到CartPole这个任务中:
    • 遇到了一个state(这个state有4个参数,分别表示Cart Position、Cart Velocity、Pole Position和Pole Velocity at Tip,所以用一个4维向量表示一个state:(cp,cv,pp,pv))。
    • 我们要根据自己的Policy来对处理state并作出action的选择,我最初的时候对Policy这个概念无法接受,这一步令我非常困惑,但其实所谓的Policy就是state的4个分量(Component)的组合方式,比如,我们将组合方式定位线性组合(Linear Combination),
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 一. 增强学习简介 1.1 什么是增强学习? 机器学习的算法可以分为三类:监督学习,非监督学习和增强学习。 增强学...
    阿阿阿阿毛阅读 31,483评论 0 25
  • 这两天胖子和我们玩消失了,发微信不回,打电话不接,发美食照片诱惑她她也不回了,我们慌了,那个一直乐观向上的胖子怎么...
    倚小白阅读 2,875评论 1 2
  • 深林的秘处, 总有你的声音, 如此隐秘, 让人回忆。 无人的小镇, 总有你的声音, 如此动人, 勾勒回忆。 太阳升...
    落叶离别人心阅读 1,495评论 0 0
  • 被现实生活 压迫的人们 胸口的呼息 异常的疼痛, 身体的上下部份 戴着沉重的铁链 和牢固的手镣 但是,追求自由 与...
    坡山俯愿君阅读 1,306评论 1 1
  • 最近接手一个活,是设计徽章系统的。PM还没有整理完需求,于是自己先搭了一个最基础的框架,然后顺着市场上现有产品的思...
    阁主的叨叨阅读 5,251评论 0 5