QTRAN算法总结

论文原文：QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement learning

参考文章：

(35条消息) 多智能体强化学习(一) IQL、VDN、QMIX、QTRAN算法详解_小小何先生的博客-CSDN博客_iql算法

QTRAN 算法详解（VDN和QMIX的升级版本） - 知乎 (zhihu.com)

到目前为止已经看过很多篇MARL的论文了，首先来总结一下学到的内容

MARL研究的问题是，假设有 $N$ 个智能体合作（也可能是竞争或者半合作半竞争，但是IQL\COMA\VDN\QMIX这些算法里似乎都只讨论了合作关系）完成一项任务。具体而言，在状态 $s_{t}$ 下，每个智能体 $i$ 选择各自的动作 $u_{t}^i$ ，由这些动作组成联合动作 $u_{t}$ ，执行 $u_{t}$ 后获得全局奖励 $Q(s_{t} ,u_{t} )$ ，这个奖励是对于所有智能体而言的，每个智能体的局部奖励 $Q_{i} (s_{t} ,u_{t}^i )$ 未知。如果使用全局奖励去训练actor网络，那么很可能会训练出“懒惰的”智能体。于是便需要一个神经网络来分别拟合每个智能体的局部奖励，以保证：当每个智能体的动作 $u^i$ 都使局部奖励 $Q_{i}$ 取得最大值时，这些动作组成的联合动作 $u$ 正好能使全局奖励 $Q$ 也取得最大值。即：

IGM条件

这种关系在QTRAN的论文中被定义为IGM(Individual-Global-Max)条件

VDN为了满足IGM条件，将值函数(全局奖励)分解成各局部奖励之和的形式：

VDN的IGM

QMIX提出了只要全局奖励和局部奖励的单调性一致即可：

QMIX的IGM

VDN和QMIX的想法对于(1)式来说都是充分非必要的。

QTRAN的关键思路，就是将原始的整体值函数 $Q(\tau,u )$ 映射到一个新的值函数 $\dot{Q}(\tau ,u)$ 使得这两个函数的最优联合动作是等价的。这样就可以通过分解 $\dot{Q}$ 来得到 $Q_{i}$ ，同时我们还要知道 $\dot{Q}$ 和 $Q$ 之间的关系，保证全局最优。

可进行值函数分解的条件：

定理1：当 $Q(\tau ,u)$ 和 $[Q_{i} (\tau _{i} ,u_{i} )]$ 满足下列关系时， $Q(\tau ,u)$ 可以被分解成 $[Q_{i} (\tau _{i} ,u_{i} )]$

$\sum_{i=1}^N Q_{i} (\tau _{i} ,u_{i} )-Q(\tau ,u)+V(\tau )=0(当u=\tilde{u} 时)(4a)$ 或 $\sum_{i=1}^N Q_{i} (\tau _{i} ,u_{i} )-Q(\tau ,u)+V(\tau )\geq 0(当u\neq \tilde{u} 时)(4b)$

其中 $\tilde{u_{i} } =argmax_{u_{i} } Q_{i} (\tau _{i} ,u_{i} )$ ， $V(\tau )=max_{u} Q(\tau ,u)-\sum_{i=1}^NQ_{i}(\tau _{i} ,\tilde{u_{i}} )$

(证明略)

映射方式：

对于新的值函数 $\dot{Q}$ ，作者直接将它定义为 $\dot{Q} (\tau ,u):=\sum_{i=1}^N Q_{i} (\tau _{i} ,u_{i} )$ ，这其实就是VDN中的分解方式，它和真实的 $Q$ 之间存在差距，所以作者用 $V(\tau )$ 来修正 $\dot{Q}$ 和 $Q$ 之间的误差，于是就有了： $max_{u} Q(\tau ,u)=\dot{Q} (\tau ,\tilde{u} )+V(\tau )$