13
5
15056
0
DQN系列算法对连续空间分布的action心有余而力不足,而Policy Gradient系列的算法能够有效的预测连续的动作。在此基础上DPG和DDPG算法被提了出来,并且能...