DRL王树森 Dueling Network

advantage function

U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots
Q_\pi(s_t,a_t)=E[U_t|S_t=s_t,A_t=a_t]
V_\pi(s_t)=E_A[Q_\pi(s_t,A)]
Q^*(s,a)=max_\pi Q_\pi(s,a)
V^*(s)=max_\pi V_\pi(s)
V^*(s)=max_a Q^*(s,a)

A^*(s,a)=Q^*(s,a)-V^*(s)
max_a A^*(s,a)=max_a Q^*(s,a)-V^*(s)=0
\therefore max_a A^*(s,a)=0

A^*(s,a)=Q^*(s,a)-V^*(s)
Q^*(s,a)=A^*(s,a)+V^*(s)-max_a A^*(s,a)

Dueling Network

DQN
Q(s,a;w)\approx Q^*(s,a)
改进DQN
A(s,a;w^A)\approx A^*(s,a)
V(s;w^V)\approx V^*(s)
Q^*(s,a)=A^*(s,a)+V^*(s)-max_a A^*(s,a)
Q(s,a;w^A,w^V)=A(s,a;w^A)+V(s;w^V)-max_a A(s,a;w^A)
实际中,通过均值替代,实验效果更好
Q(s,a;w^A,w^V)=A(s,a;w^A)+V(s;w^V)-mean_a A(s,a;w^A)

Dueling Network的输入和输出和DQN完全一样,两者唯一的区别在于神经网络的结构不同。
Dueling Network的网络结构更好,它的表现能力更好。

training

通过Q-learning算法学习神经网络参数

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容