policy gradient 其实就是 的平均数:
corssentropy是加法,总和。这里需要每一项,所以就取一个平均值。
- 好算,就是递减奖励累加,字面意思,一次完整过程中每一步得到的奖励,递减后累加起来。
- corssentropy 更简单,就是为了能够倒推概率用的。
- 取所有动作值的平均值,然后backward()
其实虽然是调整policy,然而还是要用Q值去衡量的。
缺点:每次优化的时候,是一个完整过程结束后,取了每一步的均值,所以有一个问题,如果最后结果很好,哪怕其中某步的动作很差,也会被当作好的动作来学习。所以通往最优解的道路上,可能充满了坎坷和艰辛,还需要大量的数据集。