DRL王树森 Dueling Network

advantage function

$U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots$
$Q_\pi(s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]$
$V_\pi(s_t)=E_A[Q_\pi(s_t,A)]$
$Q^*(s,a)=max_\pi Q_\pi(s,a)$
$V^*(s)=max_\pi V_\pi(s)$
$V^*(s)=max_a Q^*(s,a)$

$A^*(s,a)=Q^*(s,a)-V^*(s)$
$max_a A^*(s,a)=max_a Q^*(s,a)-V^*(s)=0$
$\therefore max_a A^*(s,a)=0$

$A^*(s,a)=Q^*(s,a)-V^*(s)$
$Q^*(s,a)=A^*(s,a)+V^*(s)-max_a A^*(s,a)$

Dueling Network

DQN
$Q(s,a;w)\approx Q^*(s,a)$
改进DQN
$A(s,a;w^A)\approx A^*(s,a)$
$V(s;w^V)\approx V^*(s)$
$Q^*(s,a)=A^*(s,a)+V^*(s)-max_a A^*(s,a)$
$Q(s,a;w^A,w^V)=A(s,a;w^A)+V(s;w^V)-max_a A(s,a;w^A)$
实际中，通过均值替代，实验效果更好
$Q(s,a;w^A,w^V)=A(s,a;w^A)+V(s;w^V)-mean_a A(s,a;w^A)$

Dueling Network的输入和输出和DQN完全一样，两者唯一的区别在于神经网络的结构不同。
Dueling Network的网络结构更好，它的表现能力更好。

training

通过Q-learning算法学习神经网络参数

DRL王树森 Dueling Network

advantage function

Dueling Network

training

推荐阅读更多精彩内容