论文原文：Actor-Attention-Critic for Multi-Agent Reinforcement Learning

参考文章（这篇文章里写的非常详细！）：MAAC注意力的演员评论家: Multi-Agent强化学习 - 知乎 (zhihu.com)

首先MAAC这个名字指代的是Multi-Actor-Attention-Critic，有一个Attention在里面，指的是神经网络中的注意力机制。注意力机制就是指，对于一个agent来说，它要关注别的agent的行动，但是对于其他agent关注的程度不同。例如在足球比赛中，一个队的后卫要关注的是对方队伍的前锋，而不是对方队伍的守门员。

论文先从最早的单智能体Policy-Gradient方法说起：

policy-gradient方法的actor网络的优化目标是这个：

policy-gradient的优化目标

但是公式后面这项 $\sum_{t’=t}^{inf} \gamma ^{t’-t} r_{t’} (s_{t’} ,a_{t’} )$ 在每次episode中变化很大，于是actor-critic方法把这一项用一个函数去拟合（也就是critic网络）：

critic网络

所以critic网络的更新的loss就是估计的 $Q$ 值和“实际”的 $Q$ 值之间的差距，所谓“实际”其实是用另一个target-critic网络（网络结构相同，其参数定期更新）去计算出来的：

critic网络的更新

为了鼓励探索，并防止陷入局部最优动作，又有了Soft Actor Critic，该方法在损失函数中加入熵，actor的更新公式为：

新的actor更新公式

其中 $b(s)$ 是一个只与状态 $s$ 有关的baseline，与此同时critic网络的 $y$ 也变成了：

公式(2)中新的y值

MAAC算法

MAAC算法也是中心化训练critic，分布式训练actor

MAAC的网络结构

为了计算每一个agent的 $Q$ 值 $Q_{i}^\psi (o,a)$ ，critic网络接受输入为所有agent的观测 $o=(o_{1} ,...o_{N} )$ 以及他们的动作 $a=(a_{1} ,...a_{N} )$ ，我们令除智能体 $i$ 之外的所有智能体为“\i”，并以 $j$ 为序号，于是 $Q_{i}^\psi (o,a)$ 可以表示为这样：

公式(5)

这里面 $f_{i}$ 是一个"two-layer multi-layer perceptron(MLP)"， $g_{i}$ 是一个" one-layer MLP embedding function"， $x_{i}$ 是所有其他agent的value的加权之和（这里的加权应该就是注意力机制）：

xi is a weighted sum of each agent’s value

其中， $V$ 是一个固定的矩阵， $h(\cdot )$ 是leaky Relu，注意力权重 $\alpha _{j}$ 利用双线性映射（即query-key系统）将embedding $e_{j}$ 与 $e_{i}$ 进行比较，并将这两个嵌入之间的相似度值传入一个softmax，其中 $W_{q}$ 将 $e_{i}$ 转化为query， $W_{k}$ 将 $e_{j}$ 转化为key，然后通过这两个矩阵的维度对匹配进行缩放，以防止消失的梯度