Doubel DQN
Q function 倾向于高估reward的action。
Double DQN两个Q function,一个用来估计value用于选择action,另一个实际计算action的value。
image.png
实际的typical DQN中也有两个Q function,原来固定的target network来算,改为用可以update的network来算。
Dueling DQN
image.png
实际中为强迫network优化V,会给A一些约束,保证V不会有平凡的解。如给做normalization,约束average为0。
other tips
image.png
image.png
image.png
image.png
image.png