内卷网络

Involution: Inverting the Inherence of Convolution for Visual Recognition

https://arxiv.org/abs/2103.06255v2

https://hub.fastgit.org/d-li14/involution

CVPR2021

卷积已成为现代神经网络的核心组成部分，引发了视觉深度学习的热潮。在这项工作中，我们重新思考了视觉任务标准卷积的固有原理，特别是空间无关和通道相关。相反，我们提出了一种新的原子操作的深层神经网络通过逆转上述设计原则的卷积，创造了Involution。此外，我们还揭开了最近流行的自注意算子的神秘面纱，并将其作为一个过于复杂的实例纳入Involution族中。所提出的Involution算子可以作为构建新一代视觉识别神经网络的基础，在几个流行的基准上为不同的深度学习模型提供动力，包括ImageNet分类、COCO检测和分割以及城市景观分割。我们基于Involution的模型使用ResNet-50将卷积基线的性能提高了1.6%的top-1精度、2.5%和2.4%的边界框AP以及4.7%的绝对平均IoU，同时在上述基准上将计算成本分别压缩到66%、65%、72%和57%。所有任务的代码和预先培训的模型可在

1.引言

尽管神经网络结构发展迅速，但卷积仍然是深层神经网络的主要构造方法。受经典图像滤波方法的启发，卷积核具有两个显著的特性，即空间无关性和通道特异性，这两个特性有助于它的吸引力和流行性。在空间范围内，前者通过在不同位置重用卷积核来保证卷积核的效率，并追求平移等变[63]。在通道域中，卷积核谱负责收集在不同通道中编码的不同信息，以满足后一种特性。此外，自开创性的VGGNet出现以来，现代神经网络通过将卷积核的空间跨度限制在不超过3×3的范围内，受益于卷积核的紧凑性[42]。

一方面，虽然空间无关性以及随之而来的空间紧凑性（编者注：空间紧凑性是指卷积核在空间上的共享导致的参数高效）在提高效率和解释平移等变性方面有意义，但它剥夺了卷积核适应不同空间位置的不同视觉模式的能力。此外，局部性限制了卷积的感受野，这给单次捕获远距离空间交互带来了挑战。另一方面，众所周知，在许多成功的深层神经网络中，卷积滤波器内部的通道间冗余非常突出[23]，这让人们对卷积核相对于不同通道的灵活性产生了怀疑。

为了克服上述局限性，我们提出了一种称为Involution的运算，它与卷积具有对称相反的固有特性，即空间特异性和通道无关性。具体地说，Involution核在空间范围上是不同的，但在通道之间是共享的。由于其空间特性，如果将Involution核参数化为固定大小的矩阵，像卷积那样，并使用反向传播算法进行更新，则学习到的Involution核将无法在不同分辨率的输入图像之间迁移。在处理可变特征分辨率时，某一空间位置的Involution核可以生成为仅仅取决于该位置的输入特征向量

，这是一种直观而有效的实例化。此外，我们还通过沿通道维共享Involution核来减少核的冗余。综合上述两个因素，Involution运算的计算复杂度与特征通道的数量成线性关系，在此基础上，Involution核的动态参数化使得可以在空间维度上进行广泛覆盖( 足够拟合，extensive coverage)。由于采用了反向设计方案，我们提出的Involution比卷积具有两方面的优势：（i）Involution可以在更广泛的空间范围中概括上下文，从而克服了很好地模拟远程交互的困难；（ii）Involution可以在不同的位置自适应地分配权重，以便在空间域中优先考虑信息量最大的视觉元素。

类似地，最近的方法已经指出，为了捕捉长期依赖性，需要超越卷积，更倾向于自注意[39,64]。在这些工作中，纯自注意可以用来构建具有良好性能的独立模型。有趣的是，通过一个关于核构造的复杂公式，我们揭示了自注意是Involution的一个特例。通过比较，本工作中采用的Involution核是基于单个像素而不是其与相邻像素的关系生成的。更进一步，我们在实验中证明，即使使用令人尴尬的简单版本，Involution也可以实现与自注意相比的具有竞争力的精度成本权衡。充分意识到通过将查询与self-attention中的每个键进行比较而获得的亲和矩阵也是Involution内核的一个实例，我们质疑组合查询和键特征以生成这样一个内核的必要性，因为我们简化的Involution内核也可以获得良好的性能，同时避免对键-内容的过度关注，更不用说在自注意中的专用位置编码了。

所提出的Involution操作通过以相当轻量级的方式将可扩展和可切换的空间建模嵌入到表示学习范式中，方便了视觉识别。在这个重新设计的视觉原语的基础上，我们建立了一个主干体系结构系列，称为RedNet，它可以实现优于基于卷积的ResNet和基于自注意的图像分类模型的性能。在包括检测和分割在内的下游任务中，我们全面开展了一项分步研究，以检查Involution对检测器和分割器不同组件的有效性，例如它们的主干和颈部。事实证明，Involution对所考虑的每个组件都是有帮助的，它们的组合将带来最大的效率。

概括而言，我们的主要贡献如下：

1.我们重新考虑卷积的固有特性，与空间和通道范围相关。这激发了我们对其他潜在操作的倡导，这些操作具有识别能力和视觉识别的表现力，作为替代，突破了现有卷积的归纳偏置。

2.我们将新兴的将自注意纳入视觉表征学习过程的哲学联系起来。在这种情况下，为关系建模组合像素对的需求受到了挑战。此外，我们通过Involution视角统一了自注意和卷积的观点。

3.以Involution为动力的体系结构在广泛的视觉任务中普遍工作良好，包括图像分类、对象检测、实例和语义分割，提供了比基于卷积的体系结构更好的性能。

2.卷积

我们从引入标准卷积运算开始，进而提出我们对Involution的定义。 $X\in R^{H\times W\times C_i}$ 表示输入，H是高，W是宽， $C_i$ 枚举输入的通道。在特征张量 $X$ 的立方体内，位于每个空间位置的特征向量 $X_{i,j}\in R^{ C_i}$ 可以被视为代表某些高级语义模式的像素（原文，这里有滥用下标。编者注：下标i在此处指通道索引，但是在下文中指空间横坐标）。

一组 $C_o$ 个、核尺寸固定为K×K的卷积滤波器(convolution fifilters) $F\in R^{ C_o\times C_i\times K\times K}$ ，其中每个滤波器 $F_k\in R^{ C_i\times K\times K}$ （ $k=1,...C_o$ ）包含 $C_{i}$ 个卷积核(convolution kernels) $F_{k,c}\in R^{ K\times K}$ （ $c=1,...C_i$ ），并以滑动窗口方式对输入特征映射执行乘法和运算，以产生输出特征映射 $Y\in R^{H\times W\times C_o}$ ，定义为：

其中 $∆_K∈ Z^2$ 表示考虑在中心像素上进行卷积的邻域中的偏移集，写为（×此处表示笛卡尔积）

此外，深度卷积[8]将组卷积[27,54]的公式推到了极致，其中每个滤波器（实际上退化为单个核） $G_k\in R^{ K\times K}$ （ $k=1,...C_o$ ）严格地分别对单个特征通道执行卷积，因此在输出通道数等于输入通道数的假设下，从 $F_k$ 中消除第一维以形成 $G_k$ 。这样，卷积运算变为：

注意，核 $G_k$ 相关于第k个特征（从通道维度是视角） $X_{\cdot ,\cdot ,k}$ ，并且在这个特征上的所有空间位置之间共享。

3.Involution设计

与上述标准卷积或深度卷积相比，Involution核 $H∈ R^{H×W×K×K×G}$ 被设计成在空间和通道域中包含具有相反特性的变换，因此得名。具体地说，一个Involution核 $H_{i,j,·,·,g}∈ R^{K×K}$ （ $g＝1, 2,···G$ ）是特定于位置 $(i,j)$ 处的像素 $X_{i,j}\in R^{ C}$

（为了符号简洁，省略了C的下标），但在通道上共享。 $G$ 是分组数量，每一组共享相同的Involution核。使用乘加计算得到的输出定义为：

与卷积核不同，Involution核H的形状取决于输入特征映射X的形状。自然的想法是生成以原始输入张量（的部分）为条件的Involution核，以便输出核能够与输入轻松对齐。我们将核生成函数符号化为 $\phi$ ，并将每个位置 $(i,j)$ 的函数映射抽象为：

$H_{i,j}=\phi (X_{\Psi _{i,j} } )$ $(5)$

其中 $\Psi _{i,j}$ 表示 $H_{i,j}$ 取决于那些像素的集合的索引。

实现细节

考虑到卷积的简洁性，我们使卷积在概念上尽可能简单。注意，我们的目标是首先为核生成函数 $\phi$ 提供一个设计空间，然后快速原型化一些有效的设计实例以供实际使用。在这项工作中，我们选择从单个像素 $X_{i,j}$ 扫描每个Involution核 $H_{i,j}$ 作为其替身。正在探索的更精致的设计可能会进一步推动性能边界，但仍将作为未来的工作。此外，我们意识到，自注意落在这个设计空间中，而这是一个比我们默认选择更复杂的构造过程，这将在第4.2节中进行更详细的讨论。形式上，我们有用 $\Psi _{i,j} =\left\{{(i,j)} \right\}$ 的核生成函数 $\phi :R^C \rightarrow R^{K\times K\times G}$ ，其形式为：

在这个公式中， $W_0∈ R^{{\frac{C}{r} }×C}$ 和 $W_1 ∈ R^{(K×K×G) {\frac{C}{r} }}$ 表示两个线性变换，它们共同构成一个瓶颈结构，其中中间通道维度受缩减率 $r$ 的控制，以实现高效处理， $σ$ 表示两个线性变换之间的批量归一化和非线性激活函数。下文中，我们用公式6中的构造核生成函数参考公式4作为Involution。Alg.1中显示的伪代码描述了Involution的计算流程，如图1所示。

为了构建具有内卷的整个网络，我们通过堆叠剩余块来镜像ResNet[18]的设计，因为ResNet优雅的架构使其易于孕育新思想和进行比较。我们将ResNet的所有瓶颈块中的3×3卷积替换为Involution，在stem中，分类任务中用3×3Involution，密集预测任务用7×7Involution；在主干中，所有任务都使用7×7Involution，但保留所有1×1卷积进行通道投影和融合。这些精心重新设计的实体联合起来形成了一种新的高效骨干网络，称为RedNet。

一旦空间和通道信息交织在一起，神经网络内部就会出现严重的冗余。然而，在我们的RedNet中，信息交互被巧妙地解耦，以实现良好的准确性和效率权衡，如图2所示。具体地说，在核生成步骤中，在一个像素的通道维度中编码的信息被隐式地分散到其空间附近，之后，由于大量和动态的Involution核，丰富的感受野中的信息被收集。通道信息交换不可避免地穿插着线性变换（通过1×1卷积实现）。总之，channel-spatial，spatial-alone， and channel-alone interactions 交替且独立地作用于信息传播流，协同促进网络架构的小型化，同时确保表示能力。

4.在先前文献的背景下

本节涉及先前文献中围绕神经架构的几个重要方面。与我们的方法相比，我们澄清了它们的相同点和不同点。

4.1. 卷积与变异

作为现代视觉系统事实上的标准算子，卷积[28]具有两个主要特征，即空间无关性和通道特异性。卷积核在空间范围内与位置无关，用于平移等变，但在不同的通道上私有化，用于信息识别。沿着另一条研究路线，深度卷积在高效神经网络结构设计中显示出广泛的适用性[8,41,33,48]。深度卷积是对标准卷积的空间和通道纠缠进行因式分解的开创性尝试，这与我们提出的Involution操作是对称的，深度方向的卷积包含一组相关于每个通道的内核，并且在空间上共享，而我们发明的Involution内核在通道上共享，并且专用于图像晶格中的每个平面位置。

直到最近，动态卷积才成为平稳卷积的强大变体。这些方法要么直接生成整个卷积滤波器[16,25,56]，要么参数化与每个卷积核相关的采样网格[11,24,66]。关于前一类[16，25，56]，与我们不同的是，他们动态生成的卷积滤波器仍然符合标准卷积的两个特性，因此产生显著的内存或计算消耗。关于后一类[11，24，66]，只有某些属性，例如卷积核的足迹，以自适应方式确定。

事实上，在人脸识别领域的早期，DeepFace[47]和DeepID[45]已经探索了在空间域中没有权重共享的局部连接层，这是受人脸图像中统计数据明显不同的区域分布启发的。然而，这种卷积参数的过度松弛在从一个位置到另一个位置的知识转移中可能是有问题的。与动态卷积类似，我们的Involution通过在不同位置共享核生成函数的元权重来解决这一难题，尽管不是直接共享核实例的权重。以前也有采用像素级动态核进行特征聚合的工作，但它们主要利用上下文信息进行特征上采样[43,51]，并且仍然依赖卷积进行基本特征提取。替代卷积而非上采样的最相关工作可能是[60]，但像素级生成的滤波器仍然继承卷积的一个原始属性，以便在每个通道上以不同的方式执行特征聚合。

4.2. 注意机制

注意机制起源于机器翻译领域[49]，并在自然语言处理领域呈现出蓬勃发展[12,58]。它的成功还转化为大量的视觉任务，包括图像识别[2,20,39,64]、图像生成[34,61]、视频理解[44,52]、对象检测[5,19,65]和语义分割[14,22,50]。有些作品将自注意作为插件模块插入主干神经网络[6,59]，或将其连接到主干的顶部，以提取高级语义关系[5,44]，保留卷积特征的基础。更积极的是，其他作品采用了脱离外壳的自注意层作为视觉的基本主干组件[2,20,39,50,64]。尽管如此，与卷积相比，对这种函数形式的学习动力学的深入研究仍然有限[9]。我们提出的Involution方程。4让人联想到自注意，本质上可以成为它的一个广义版本。自注意池的值V取决于通过计算查询和关键内容Q和K之间的对应关系而获得的亲和力，公式化为

其中，Q、K和V从输入X线性变换，H是多头自注意中的头数[49]。相似之处在于两个操作符都收集邻域中的像素∆ 或者一个不太有界的范围Ω 通过加权和。一方面，Involution的计算区域可以看作是空间域上的一个关注聚集。另一方面，注意映射，或者说自注意中的亲和矩阵QK>，可以看作是一种Involution核H。

然而，由于内核生成的特殊性，自注意和我们用Eqn实现的Involution形式之间存在差异。6.重新考虑以前用局部自注意取代卷积的努力[20,39,64]为了建立主干模型，他们必须基于查询和关键内容之间的关系推导亲和矩阵（在我们的上下文中相当于Involution内核），可选择使用手工制作的相对位置编码进行排列差异。从这个角度来看，为了自注意，输入到Eqn中的内核生成函数。5将成为由ψi，j=（i，j）+索引的一组像素∆K1，包括感兴趣的像素及其周围像素。随后，该函数可以以有序[64]或无序[20,39,64]的方式合成所有这些有人参与的像素，并利用它们之间的复杂关系。与上述情况形成鲜明对比的是，我们通过仅对原始输入像素本身进行操作，以ψi，j={（i，j）}构成Involution核，如等式n所示。6.从自注意的角度来看，我们的Involution核只显式地依赖于查询内容，而相对位置信息隐式地编码在我们的核生成函数的有组织的输出形式中。我们牺牲像素配对关系建模，但我们的RedNet的最终性能等同于那些基于关系的模型。因此，我们可以得出这样一个结论：在视觉理解的表征学习中，Involution的宏观设计原则而不是微观设置的细微差别是有帮助的，实验部分的实证结果证实了这一点。支持我们假设的另一个有力证据是，仅使用位置编码（将等式7中的QK>替换为QR>，其中R是位置嵌入矩阵）保留了基于自注意模型的下降性能[39，1]。以前，上述观察被解释为位置编码在自注意中的关键作用，但现在对其背后根本原因的重新解释可能是QR>仍然是一种动态参数化的Involution核。

更重要的是，以往基于自注意的作品很少在各种视觉任务中表现出其多功能性，但我们的内卷化为各种任务铺平了可行的道路，我们将在第5.1节中很快发现这一点。

5.实验

5.1. 主要结果

我们进行了从概念预测到（半）密集预测的综合实验。所有网络模型均使用PyTorch库实现[35]。

5.1.1图像分类

我们在ImageNet[13]训练集上从头开始进行主干训练，这是迄今为止最具挑战性的目标识别基准之一。为了进行公平比较，我们遵循独立自注意[39]和轴向注意[50]的训练方案，除了在训练期间不使用指数移动平均（EMA）对可训练参数进行测试。按照相同的方法，我们重新实现了成对和分片SAN[64]，并将其开源代码2作为一个更强的基线，并在相应的表格和图中分别显示了我们的复制结果。附录中提供了详细的培训设置。我们将Inception风格的预处理应用于数据扩充[46]，即随机调整大小的裁剪和水平翻转。为了进行评估，我们按照常规做法在验证集上使用单一作物测试方法。

本着ResNet的精神，我们扩展网络深度，建立我们的RedNet家族。表1总结了与卷积和基于自注意的视觉模型的比较。几乎在表格的每一组中，RedNet实现了最高的识别精度，同时具有最节省的参数存储和计算预算。RedNet在所有深度上都可能大大优于ResNet。例如，与ResNet-50相比，RedNet-50的精度提高了1.6%，使用的参数减少了39.5%，计算量减少了34.1%。此外，ReNET-50与ReNET-101相媲美，可以降低Top-1的识别精度，同时节省65.2%和65.8%的存储和计算资源。为了直观演示，图2a中说明了相应的精度-复杂度包络，其中我们的红网显示了性能最好的帕累托前沿，与其他最先进的自注意模型并驾齐驱，同时不需要更复杂的关系建模。同样，我们可以在图2b所示的精度参数包络中观察到类似的趋势。值得注意的是，与SAN和Axial ResNet等顶级竞争对手相比，RedNet在参数和复杂性之间取得了更好的平衡，因为它们被图2a或2b中的RedNet系列曲线所包围。为了反映实际运行时间，我们对224×224形状的单个图像测量了具有可比性能的不同体系结构的推断时间。我们在表2中报告了GPU/CPU上的运行时间，其中RedNet在相同精度水平下展示了其在挂钟时间方面的优点。一个定制的CUDA内核实现，具有优化的内存调度，可以在GPU上进一步加速。根据优化硬件加速器对这种新的Involution运算符的贡献程度，与卷积相比，设备上的加速比将来可能接近理论加速比。

5.1.2目标检测和实例分割

除了基本的图像分类之外，我们还展示了我们提出的Involution在下游视觉任务（如目标检测和实例分割）上的泛化能力。对于目标检测，我们采用了具有代表性的一级和两级探测器，视网膜网[30]和更快的R-CNN[40]，都配备了FPN[29]颈部。例如，我们采用主流检测系统Mask R-CNN[17]，也与FPN配套使用。这三个带有底层主干的探测器（ResNet-50或RedNet-50）在Microsoft COCO[31]train2017上进行了微调，用于传输学习到的图像表示。更多培训详情见附录。在定量评估期间，我们对val2017集进行测试，并报告不同IoU阈值（从0.5到0.95，增量为0.05）下的COCO风格平均精度（mAP）。

表3将我们的模型与基于卷积的颈部和头部的ResNet主干线基线进行了比较。首先，使用RedNet主干网，所有三种检测器都优于基于ResNet的检测器，具有相当大的性能增益，即在边界框AP中分别高出1.7%、1.8%和1.8%，同时具有更多的参数和计算节省。第二，在FPN颈部将Involution换成卷积可以为更快的/Mask R-CNN带来健康的边缘，同时进一步将其参数和计算成本降低到71%/73%和65%/72%。特别是，关于边界框AP的边距分别扩大到2.5%和2.4%。第三，为了构建完全基于Involution的检测器，我们进一步将Faster/Mask R-CNN任务相关头部中的卷积替换为Involution，这可以降低一半以上的计算复杂度，同时保持优异或同等的性能。这种完全基于Involution的检测器可能特别突出，尤其是在计算资源是主要瓶颈的情况下。第四，我们特别关注小型/中型/大型对象的分数，并注意到最引人注目的性能改进出现在APL的测量中。在这方面，我们最好的检测模型可以超过基线3%以上的边界框AP，特别是视网膜网、更快的R-CNN和掩模R-CNN的3.4%、4.3%和3.3%。我们假设，大规模目标检测的成功来自于扩展和位置感知Involution核的设计。除APL外，在AP评估指标的细粒度分类法下，性能增益是一致的，如表3的不同列所示。

5.1.3语义分割

为了进一步开发Involution的通用性，我们还对语义图像分割任务进行了实验。我们选择语义FPN[26]和SuperNet[53]的分割框架，加载ImageNet预训练主干权重。我们在Cityscapes数据集[10]的精细注释部分对这些分段器进行微调，该数据集包含2975和500张图像，分别用于训练和验证，分为19类。更多培训详情见附录。训练结束后，我们在单尺度模式下对验证集进行评估，并采用交叉超联合（IoU）作为评估指标。

基于语义FPN框架，我们能够在所有类别上实现3.8%的平均IoU，利用RedNet over ResNet作为主干。由于进一步将Involution注入FPN颈部以代替卷积，平均IoU的增益提高到4.7%，但参数和FLOP相应地降低到基线模型的57.5%和56.6%。详细的比较结果如表4所示。为了更进一步，我们研究了我们的方法在不同对象类上的有效性。与目标检测中的发现相一致，我们注意到那些具有较大空间排列的对象的分割效果提高了10%以上，例如墙壁、卡车和公共汽车，而在相对较小的对象类别中，例如交通灯、交通标志、人和自行车，则略有改善。再一次，Involution操作通过赋予表示过程动态和远程交互，有效地帮助大对象感知。此外，我们用RedNet替换了SuperNet的ResNet主干，并评估了最终性能，如表5所示。尽管使用相同的分节器和训练策略不是苹果对苹果的比较，但基于RedNet的超级网络似乎比Axial DeepLab更高效，Axial DeepLab通过转换原始Axial ResNet主干网络专门为分节任务而设计。

5.2. 烧蚀分析

我们以RedNet-50为例，介绍了几项旨在了解单个组件贡献的烧蚀研究。

茎

首先，我们隔离了Involution对网络茎的影响。按照最近基于自注意的体系结构[64,50]的实践，网络系统被分解为三个连续的操作，以节省内存成本。根据我们将渐开线集成到主干的实践，我们将3×3渐开线放置在阀杆的瓶颈位置。该法案将准确度从77.7%提高到78.4%，且具有边际成本，导致我们在主要实验中默认设置了RedNet。

除明确提及外，我们使用具有7×7卷积柄的RedNet-50进行以下消融分析。

内核大小

在空间维度上，我们探讨了核大小的影响。当空间范围增加到7×7时，表6a中观察到稳定的改善，计算开销可以忽略不计。当进一步扩展空间范围时，改进有些停滞，这可能与网络中的特征分辨率有关。这组受控实验表明，利用大Involution核优于紧凑和静态卷积，同时避免引入禁止性内存和计算成本。

群通道

在通道维度，我们评估了共享Involution核的可行性。如表6b所示，与非共享通道相比，每16个通道共享一个内核将使参数和计算成本减半，仅牺牲0.2%的精度。然而，在所有C通道中共享一个内核显然在准确性方面表现不佳。考虑到Involution核的通道冗余性，只要将组中共享的通道设置在可接受的范围内，通道无关行为不仅可以保留性能，而且可以减少参数计数和计算成本。这也将允许在相同的预算下使用更大的内核大小。

核生成函数

接下来，我们在表6c中验证瓶颈体系结构对于内核生成过程的实用性。与默认设置（r=4）相比，采用单个线性变换W或两个无瓶颈（r=1）的变换作为内核生成函数会产生更多参数和失败，但性能仅略好。此外，较差的性能可归因于积极的通道减少（r=16）。

在内核生成函数中进一步附加诸如softmax、sigmoid之类的激活函数将限制内核值，从而限制其表达能力，并最终阻碍性能超过1%。因此，我们选择不在核生成函数的输出端插入任何附加函数，允许生成的核跨越K×K矩阵的整个子空间。

5.3. 形象化

为了分解学习到的Involution核，我们将每个Involution核的K×K值之和作为其代表值。不同空间位置的所有代表构成了相应的热图。一些选定的热图绘制在图3中，其中原始图像后面的列表示第三阶段最后一个块中的不同Involution核（conv3 4遵循[18]的命名约定），由组分隔。一方面，Involution核自动关注空间范围内物体的关键部分，以实现正确的图像识别。另一方面，在单个Involution层中，来自不同组的不同内核通过分别高亮显示外围部分、锐利边缘或角点、更平滑区域、前景和背景对象的轮廓（每行从左到右），关注原始图像的不同语义概念。

6.结论与展望

在这项工作中，我们提出了Involution，一种有效的视觉表征学习算子，逆转了卷积的设计原则，推广了自注意的公式。多亏了内卷这一媒介，我们能够揭示自注意和卷积之间的潜在关系，并从经验上确定自注意在视觉领域的最新进展的基本驱动力。我们提出的Involution基于多个标准视觉基准进行基准测试，与基于卷积和基于自注意的模型相比，一致地以更低的成本提供增强的性能。此外，仔细的烧蚀分析有助于我们更好地理解，这种性能增强植根于Involution的核心贡献，从空间建模的效率到建筑设计的效率。

我们相信，这项工作可以培养未来对简单而有效的视觉原语的研究热情，而不仅仅是卷积，它有望进入统一和局部空间建模已经占据主导地位的神经架构工程领域。

A.实施细节

A.1。图像分类

根据独立自注意[39]和轴向注意[50]，我们利用随机梯度下降（SGD）优化器（动量为0.9，权重衰减为0.0001）对所有这些模型进行130个时期的训练。学习率从0.8开始，并按照半余弦函数形状的时间表逐渐接近零。每个GPU的最小批量设置为32，培训程序总共在64个GPU设备上进行。标签平滑正则化技术的系数为0.1。

A.2。目标检测与实例分割

按照广泛采用的管道，输入图像在被馈送到网络之前，被调整大小以保持其短边/长边为800/1333像素。训练过程持续12个阶段，使用随机梯度下降（SGD）优化器，动量为0.9，权重衰减为0.0001。对于Faster/Mask R-CNN，初始学习速率设置为0.02；对于RetinaNet，初始学习速率设置为0.01，线性预热周期为500次迭代，在第8和第11个历元中除以10。必要时，我们适当延长预热期，并采用梯度剪裁，以保持收敛稳定性。探测器在8个特斯拉V100 GPU上进行培训，每个GPU有2个样本。

A.3。语义分割

高分辨率1024×2048的城市场景图像随机调整大小，纵横比保持在0.5到2.0的范围内，从中随机裁剪大小为512×1024的输入图像面片，然后进行随机水平翻转和一系列光度畸变，作为数据增强。我们采用80k迭代的训练计划，并采用动量为0.9、权重衰减为0.0005的随机梯度下降（SGD）优化器。学习率从0.01开始，按照传统的“多边形”策略进行退火，这表明初始学习率乘以（1− 每次迭代的iter总量（iter）为0.9。分段网络在4个特斯拉V100 GPU上进行训练，每个GPU有2个样本。我们应用同步批标准化[36]来更稳定地估计批统计数据。

B.与可可最新技术的比较

对于COCO上的对象检测和实例分割，我们将基于Involution的掩码RCNN[17]与RedNet-50主干网进行了比较，并将其与表7中其他著名的带有ResNet-50的体系结构进行了比较。我们的方法比配备有自注意块的卷积掩模R-CNN（如NLNet[52]、CCNet[22]和GCNet[4]）的性能要好得多。此外，我们的方法优于将动态机制嵌入网络的方法，包括可变形网络（DCN）[66]和动态图消息传递网络（DGMN）[62]。请注意，所有这些方法都通过添加互补模块为香草掩码R-CNN引入了额外的参数和触发器，而我们提出的Involution算子甚至通过替换卷积降低了基线的复杂性。

C.分段的可视化

基于语义FPN[26]框架，我们提供了一些关于图4中城市景观验证集的预测结果。如果没有Involution的帮助，大型对象的像素通常会被误认为是其他具有高度相似性的对象。例如，第一个图像示例中的墙通常与基于卷积的FPN的构建相混淆。第三个图像示例中的公交车的一些像素被错误分类为卡车或汽车，因为自行车的遮挡而分心。相反，我们基于Involution的FPN通过在更大的空间范围内进行动态推理来消除这些歧义。此外，在我们的方法的分割结果中观察到对象内部像素的更好一致性，收获了Involution的好处。

D.讨论

卷积神经网络的拓扑连接性[18,21,55,57]和超参数配置[15,38,48]经历了快速的演变，但开发全新的算子对构建创新架构的关注很少。在这项工作中，我们希望通过分解卷积的元素并将它们重新组合成一个更有效的Involution来弥补这一遗憾。与此同时，当前神经架构工程的前沿之一是自动搜索网络结构[3,32,37,67,68]。我们的发明还可以填补大多数现有神经架构搜索（NAS）策略的搜索空间。在不久的将来，我们期待着在NAS的帮助下发现更有效的配备Involution的神经网络。

参考文献：

第4节提到3篇动态卷积的工作

11. Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei. Deformable convolutional networks. In ICCV, 2017. 4

24. Yunho Jeon and Junmo Kim. Active convolution: Learning the shape of convolution for image classifification. In CVPR, 2017. 4

66. Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable convnets v2: More deformable, better results. In CVPR, 2019

推荐阅读更多精彩内容