对Policy gradient的总结

policy gradient 其实就是 corssentropy \times V(s) 的平均数:

corssentropy是加法,总和。这里需要每一项,所以就取一个平均值。

  • V(s) 好算,就是递减奖励累加,字面意思,一次完整过程中每一步得到的奖励,递减后累加起来。
  • corssentropy 更简单,就是为了能够倒推概率用的。
  • 取所有动作值的平均值,然后backward()

其实虽然是调整policy,然而还是要用Q值去衡量的。

缺点:每次优化的时候,是一个完整过程结束后,取了每一步的均值,所以有一个问题,如果最后结果很好,哪怕其中某步的动作很差,也会被当作好的动作来学习。所以通往最优解的道路上,可能充满了坎坷和艰辛,还需要大量的数据集。

这篇有详解

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。