这是发在 CVPR 2020 上的文章。

Abstract

表示学习是现代计算机视觉的基础部分，其中抽象的数据表示被编码为张量，经过优化可解决图像分割和修复等问题。最近，以非局部块的形式出现的自我注意已成为一种通过捕获特征张量中复杂的相互依赖关系来丰富特征的强大技术。但是，标准的自注意力方法仅利用空间关系，绘制矢量之间的相似性，并忽略通道之间的相关性。这篇文章中提出一个名为张量元素自注意力（Tebsor Element Self-Attention (TESA))，该方法以使用矩阵法捕获沿张量所有维度的相互依赖性。

一个阶为 $R$ 的张量产生 $R$ 个结果，每一个维度对应一个结果。然后将这些结果融合以产生丰富的输出，该输出封装了张量元素之间的相似性。

此外，文章用数学方法分析了自我注意，为如何调整输入特征张量的奇异值提供了新的视角。有了这些新的见解，文章提供了实验结果，证明了TESA如何使各种问题（包括分类和实例分割）受益。

1. Introduction

DCNNs 虽然代表了各种计算机视觉任务的最新计算，但是它们仅计算输入的局部区域。而无需使用规避技术就很难捕获这种长的相关性。例如，使用更深的卷积层堆栈会以优化困难和更高的复杂性为代价，增加神经元的感受野。

最近，已经提出了更复杂的层（例如非本地块），这些层直接利用这些相互依赖关系作为丰富中间CNN表示的手段。（？？？）

然而，这些方法中的大多数试图仅估计输入张量位置之间的时空相关性或忽略其复杂的拓扑。

在本文中，以上述研究为基础，并将其范围扩展到从输入中挖掘张量元素相互作用的目标。

三个主要贡献：

提出了一个新的自我注意模块（TESA），该模块可以利用输入张量的所有可能方向上的相关性来利用通道信息，而又不会丢失输入张量的拓扑。建议使用张量矩阵化作为提取复杂相互作用的一种方法，而不是将输入的元素完全张开为单个向量；（Figure 1）

Figure 1
对提出的非本地块族提供了统计解释。特别地，我们证明了文章的块可以看作是算子，充当特征张量的各种矩阵的频谱（即方差）的正则化器。
在一系列异构计算机视觉任务中展示了TESA的强大功能。

2. Related Work

Self-similariters

图像部分或视频帧之间的相似性概念在许多计算机视觉应用中至关重要。

（没看懂文章这部分想要表达个啥）

Self-Attention

注意机制的关键思想是使模型集中于数据的特定部分，这对于解决给定任务很有用。

3. Method

3.1 Notation

张量：如， $\mathcal{X}$ ；
张量的阶/张量的模： $N$
张量的矩阵化： $\mathbf{X}_{n}$
矩阵：如， $\mathbf{X}$
矩阵 $\mathbf{X}$ 的第 $i$ 行是向量 $x_{i}$ 。

3.2 Overview of self-attention

给定输入矩阵 $\mathbf{X}$ ，注意机制使用注意矩阵 $\mathbf{A}$ 对 $\mathbf{X}$ 进行加权，以突出显示输入的相关部分。不同的计算方式 $\mathbf{A}$ 导致注意机制的不同变体。

这篇文章专注于自我注意，其中权重仅是输入\mathbf{X}$的函数。

特别地，考虑成对函数 $f$ ，该函数可用于捕获每个 $x_{i}$ 与每个 $x_{j}$ 之间的相互依赖性。

自我注意块是残差块的一种变体，它会将自我注意机制的输出与原始输入\mathbf{X}$相加，公式如下：

公式 1

3.3 Capturing spatial correlation

让3阶张量 $\mathcal{X}\in R^{H\times W\times C}$ 是 CNN 一层的输出特征图。
模 $c$ 矩阵化， $\mathbf{X}_{c}\in R^{WH\times C}$ 。假设 $X_{c}$ 是平均归一化的。
在提出的块的线性版本中，选择协方差 $X_{(c)}X^{⊤}_{(c)}\in R^{WH\times HW}$ 作为关注矩阵，该协方差表示每个第 $i$ 个位置与每个第 $j$ 个位置之间的相关性。因此，使用这种机制的空间自我关注块的输出可以写为：

公式 2

其中， $\alpha_{c}$ 和 $\beta_{c}$ 是可学习的标量，可调节每个术语的贡献。

在公式 2中，全局协方差项会通过空间相似性来调整要素表示。

残差项以及两个可学习的标量允许通过多项式函数对频谱进行隐式正则化。在自我注意的输入和输出之间绘制一个连接块，省略下标以简化表示法。

矩阵 $\mathbf{X}$ 及其正定半协方差矩阵具有以下奇异值和本征分解:

公式 3

其中， $Q = U$ 是特征向量矩阵， $V^{T}$ ， $U$ 是右，左奇异值向量， $\Lambda$ 是特征值矩阵，并且 $\Sigma$ 其对应的奇异值对角矩阵， $\Lambda = \Sigma^{2}$ ， $\beta$ 参数学习调节以下项的贡献：

公式 4

公式 5

3.4 Capturing tensor elements interdependencies

在下面的内容中，将介绍一种利用空间和基于通道的相关性的通用化，同时保持模块对频谱的完整影响。

正如 Figure 1中所描述的，使用三模矩阵 $\mathbf{X}_{(c)},\mathbf{X}_{(h) },\mathbf{X}_{(c)}$ ，代表了特征
张量 $\mathcal{X}\in R^{H\times W\times C}$ ，每个都通过权重矩阵 $\mathbf{W}$ 嵌入不同的子空间中，接下来是一个非线性函数 $\sigma$ ：

公式 6

在作者的实验中， $\sigma$ 是 ReLU 激活函数，并且 $\mathbf{W}_{(c)}\in R^{C\times C}$ ， $\mathbf{W}_{(h)}\in R^{H\times H}$ ， $\mathbf{W}_{(w)}\in R^{Wtimes W}$ 对应于每个维度上张量空间中的1×1卷积。

然后，自注意力块被应用到每一个 $\mathbf{Y}_{(n)}$ ，通过求和合并以生成最终输出 $Z$ 。

公式 7

其中， $\Psi_{(n)}$ 是一个重塑函数，将矩阵重新排列为尺寸为 $H\times W\times C$ 的张量。

公式 7中，每个嵌入的矩阵表示输入张量上的不同观点：
$\mathbf{Y}_{(c)}$ 代表空间相互作用， $\mathbf{Y}_{(w)}$ 代表行和通道激活之间的相互作用， $\mathbf{Y}_{(h)}$ 代表列和通道之间的相互作用。

不仅限于捕获位置之间的相关性，还能够捕获跨信道的相关性。

3.5 Relation with Other Self-Attention Blocks

文章的目标是将自我注意机制推广到更复杂的互动，而不会忽略渠道信息。因此，文章的块分别嵌入每个张量模式，旨在从每个嵌入中提取不同的相关性。

4. Illustrative experiment

自我注意机制的目标之一是使模型具有一眼就能推理出整个输入表示的能力。

首先在受控场景中测试此属性，然后设计一个新的“益智MNIST”实验。使用 MNIST 数据集和4层全卷积编码-解码器。

为了测试文章的自我注意方法利用可用但分散的信息的能力，尝试给定图像的改编版本来重建图像。为了获得输入拼图，每个图像被分成16个相等大小的图块。然后将这些图块随机旋转并镜像，然后再缝合在一起。输入和输出样本如 Figure 2e 和 2a 所示。

Figure 2

4.1 Capturing spatial correlations

开始分析如公式 2 中所示的空间自注意力块。

为了强调潜在空间中自我注意的影响，比较了一个没有任何注意训练的模型（ $\alpha= 1，\beta= 0$ ）和该块的两个变体：一个变体，其中 $\alpha$ 和 $\beta$ 固定为等于1，另一个变体它们被视为可学习的标量。Figure 2 的第一行显示了比较的定性概述。基线仅限于本地处理输入，并且其性能要比经过自我关注训练的模型差。

Figure 2 的第二行显示对MNIST拼图测试集的奇异值的经验分布的比较。给定测试集的样本，我们提取了特征在自我注意块之前和之后，为每个图像返回两个矩阵 $\mathbf{X}_{in}$ 和 $\mathbf{X}_{out}$ 。

如第3节所述，该方法使左和右奇异矢量保持不变。因此，仅使用 $\alpha$ 和 $\beta$ 参数就可以计算输入和输出之间的关系，并且可以并排绘制输入和输出的奇异值频谱，从而捕获自我注意的效果。

Figure 2g 和 2h 展示了输入 $\mathbf{X}_{in}$ （蓝色）的奇异值，输出 $\mathbf{X}_{out}$ （白色）的奇异值。红条表示使用公式 5 获得的 $\Sigma_{out}$ 预测。

4.2 Capturing tensor elements interdependencies

可以使用相同的逻辑来分析方程式7的一般情况。第一步，我们将线性空间情况扩展为考虑基于通道的相互依赖性。这种情况等效于用公式 7中的 $\mathbf{X}_{n}$ 替换 $\mathbf{Y}_{n}$ 。
这样就可以在相同的潜在空间中比较输入（ $\mathcal{X}$ ）和输出（ $Z$ ）张量，并有可能直接检查其张量谱。

Figure 3

在 3b，3c，3d 图中，分别对每个模式矩阵（H，C，W）进行处理，显示每个自我注意的输入和输出之间的比较。这些图描述了自我注意如何对所有模式的矩阵产生收缩效果。

为了讨论公式 7中描述的情况，必须扩展分析范围，以考虑嵌入式模式矩阵 $\mathbf{Y}_{c}$ ， $\mathbf{Y}_{h}$ ， $\mathbf{Y}_{w}$ 。在这种情况下，由于投影矩阵 $\mathbf{W}_{c}$ ， $\mathbf{W}_{h}$ ， $\mathbf{W}_{w}$ 是可学习参数，输入 $\mathcal{X}$ 和 $Z$ 张量位于不同的子空间中。