Q learning原始损失函数定义:
Q的贝尔曼方程:
确定性策略的Q定义:
- 其中的action a就是由
确定的。而
DPG的轨迹分布函数定义:
DDPG改进:
- 利用分布式独立探索,在策略中加入一个来自轨迹N的噪音
- Loss function:
- 参数更新方式,2个部分:
策略梯度的只管解释
随机策略梯度的计算公式为:
经验平均估计策略的梯度:
是方向向量,而且其方向是
对于参数
变化最快的方向,参数在这个方向上更新可以增大或者降低
,也就是能增大或者降低轨迹
的概率