分布式优先经验回放APEX算法

$\color{red}{\Large{本质:}}$

利用经验池是异步机制，开启多个探索者进行经验积累，学习者专注于经验池中的数据进行学习。
辅助方式：利用TD等方式确定的优先级来更新经验池。
** 学习者根据TD error修改优先级
** 探索者根据TD error初始化优先级

APE-X DQN:

结合了double-q 和nstep
batch loss function: $l_t(\theta)={1\over2}(G_t - q(S_t, A_t, \theta))^2$

$G_t = \underbrace{ R_{t+1} + \gamma R_{t+2} + \dots + \gamma _{n-1} R_{t+n} + \overbrace{ \gamma ^n q(S_{t+n}, \mathop{\arg\max}_{a}q(S_{t+n}, a, \theta), \theta^{-} ) } ^{{}double-Q\; bootstrap \; value} }_{{}multi-step\; return}$

APE-X DPG:

batch loss function: $l_t(\theta)={1\over2}(G_t - q(S_t, A_t, \psi))^2$

$G_t = \underbrace{ R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{n-1} R_{t+n} + \gamma^n q(S_{t+n}, \pi (S_{t+n, \phi^{-}}), \psi^{-}) }_{{multi-step\;return}}$

探索率设置公式： $\epsilon_i=\epsilon^{1 + {i \over N+1}\alpha}$
其中， $\epsilon=0.4, \alpha=7, \; i_{代表探索者的索引号}$ ，每个探索者的探索率 $\epsilon$ 固定不变

IMPALA：
$V^{\pi} =^{def}E_{\pi}[\sum_{t \geq 0} \gamma^{t}r_{t}], \gamma \in [0,1)$

最后编辑于：2022.06.09 17:25:53

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

分布式优先经验回放APEX算法

APE-X DQN:

APE-X DPG:

友情链接更多精彩内容