CMBAC算法总结

论文原文:Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic

参考文章:【AAAI 2022】一种样本高效的基于模型的保守 actor-critic 算法 - 知乎 (zhihu.com)

论文作者:MIRA Lab,王杰教授组


基于模型的强化学习算法旨在学习环境模型,并通过环境模型做决策,其样本效率高于无模型算法。基于模型的方法的样本效率取决于模型能否很好地近似环境。然而,学习一个精确的模型是具有挑战性的,特别是在复杂和嘈杂的环境中。为了解决这个问题,MIRA Lab 提出了基于模型的保守 actor-critic 方法(conservative model-based actor-critic---CMBAC)。这是一种在不依赖精确学习模型的情况下实现了高样本效率的新方法。具体而言,CMBAC从一组不准确的模型中学习Q值函数的多个估计值,并使用其最小的k个估计值的均值(即保守估计值)来优化策略。CMBAC的保守估计能够有效地鼓励智能体避免不可靠的“有前景的动作”,即那些仅在一小部分模型中估计价值高的动作。实验结果表明,CMBAC方法在多个具有挑战性的控制任务上的样本效率明显优于现有的方法,并且该方法在噪声环境下比现有的方法更具鲁棒性。

总的来说CMBAC算法是这样的:

CMBAC算法流程图

首先是critic网络,critic网络接受s_{t} a_{t} 作为输入,分别通过N(在上图中N=3)个不同网络,然后从这N个网络中随机选出M(在上图中M=2)个组成一个Head,排列组合一下就会有

Head的数量

这么多个Head,然后每一个Head会有一个输出\hat{Q} _{\theta _{j} } (s,a),从这KHead里面去掉Q最大的L个(在上图中L=1),用剩下的Head去指导actor更新。

critic网络每个Head需要去拟合的值如下:

critic的拟合值

其中,s_{j} 是由

这个

采样得来,a_{j} ’是由actor网络\pi (\cdot \vert s_{j}’ )采样得来,\hat{Q} _{\tilde{\theta }_{j} }是target-critic网络,于是,每个头的梯度下降公式是:

梯度下降公式

而actor网络的目标则是让下面这个公式取最小:

actor网络的目标是让公式(1)取最小

最后我们来看一下CMBAC的算法伪码:

CMBAC算法伪码
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容