advantage function
Dueling Network
DQN
改进DQN
实际中,通过均值替代,实验效果更好
Dueling Network的输入和输出和DQN完全一样,两者唯一的区别在于神经网络的结构不同。
Dueling Network的网络结构更好,它的表现能力更好。
training
通过Q-learning算法学习神经网络参数
DQN
改进DQN
实际中,通过均值替代,实验效果更好
Dueling Network的输入和输出和DQN完全一样,两者唯一的区别在于神经网络的结构不同。
Dueling Network的网络结构更好,它的表现能力更好。
通过Q-learning算法学习神经网络参数