- 这是我使用Policy Gradient来解决CartPole-v0任务的一个总结,参考了莫烦博客,Andrej Karpathy博客及其翻译版,建议先看懂Andrej Kapathy的博客中关于Policy Gradient的讲解,再结合莫烦博客里的内容自己实现一遍。
- 我对Policy Gradient的理解及解决CartPole的方式如下:
理解Policy Gradient
- 我认为Policy Gradient是在做这样一件事情:优化遇到状态(state)时的动作(action)选择方式,即Policy。
- 具体到CartPole这个任务中:
- 遇到了一个state(这个state有4个参数,分别表示Cart Position、Cart Velocity、Pole Position和Pole Velocity at Tip,所以用一个4维向量表示一个state:(cp,cv,pp,pv))。
- 我们要根据自己的Policy来对处理state并作出action的选择,我最初的时候对Policy这个概念无法接受,这一步令我非常困惑,但其实所谓的Policy就是state的4个分量(Component)的组合方式,比如,我们将组合方式定位线性组合(Linear Combination),