Revealing the Dark Secrets of Masked Image Modeling
May 2022
Zhenda Xie, Zigang Geng, Jingcheng Hu, Zheng Zhang, Han Hu, Yue Cao
[Tsinghua University, University of Science and Technology of China, Microsoft Research Asia]
https://arxiv.org/abs/2205.13543
在paperswithcode的NYUv2单目深度估计任务上排名靠前
摘要:作为预训练的掩码图像建模(MIM)被证明对于许多视觉下游任务是有效的,但MIM如何工作以及在哪里工作仍然不清楚。在本文中,我们从可视化和实验两个角度将MIM与长期主导的监督预训练模型进行比较,以揭示它们的关键表征差异。从可视化中,我们发现MIM给训练模型的所有层带来了局部归纳偏置,但监督模型倾向于在较低层局部地注意,而在较高层更全局地注意。这可能就是MIM帮助视觉Transformer优化其感受野的原因。使用MIM,该模型可以在所有层的注意力头上保持很大的多样性。但对于监督模型,注意力头部的多样性几乎从最后三层消失,较少的多样性损害了微调性能。从实验中,我们发现MIM模型在弱语义的几何和运动任务或细粒度分类任务上比它们的监督对手表现得要好很多。没有铃声和口哨,标准MIM预训练SwinV2-L可以在姿势估计(COCO test-dev上的78.9 AP和CrowdPose上的78.0 AP)、深度估计(NYUv2上的0.287 RMSE和KITTI上的1.966 RMSE)和视频对象跟踪(LaSOT上的70.7 SUC)上实现最先进的性能。对于语义类别被监督预训练充分覆盖的语义理解数据集,MIM模型仍然可以实现高度竞争的迁移性能。随着对MIM的深入了解,我们希望我们的工作能够启发这一方向的新的坚实研究。
1 引言
适用于一个领域中广泛任务的有效和通用表示的预训练是深度学习成功的关键。在计算机视觉中,ImageNet上的监督分类[13]长期以来一直是主要的预训练任务,这在广泛的视觉任务上表现出有效性,尤其是在语义理解任务上,如图像分类[16、42、40、17、55]、对象检测[67、25、65、32]、语义分割[57、74]、视频动作识别[69、72、6、56]等。在过去的几年中,“掩码信号建模”(屏蔽一部分输入信号并试图预测这些屏蔽信号)是一项通用且有效的自监督预训练任务,适用于各种领域,包括语言、视觉和语音。在(掩码)语言建模重新绘制了NLP领域[14,53]之后,最近,这项任务也被证明是计算机视觉监督预训练的竞争对手[7,17,2,30,85,77]。也就是说,掩码图像建模(MIM)预训练模型在不同性质和复杂性的广泛视觉任务上实现了非常高的微调精度。
然而,仍有几个问题:
1.MIM性能优异的关键机制是什么?
2.MIM和监督模型在不同类型的任务(如语义理解、几何和运动任务)之间的可迁移性如何?
为了研究这些问题,我们从可视化和实验两个角度将MIM与监督模型进行了比较,试图揭示这两个预训练任务之间的关键表征差异,并深入了解MIM预训练的行为。
我们首先研究预先训练的模型的注意力图。首先,我们在MIM模型中可视化了平均注意力距离,我们发现掩码图像建模给训练模型带来了局部归纳偏置,在注意力头部分,模型倾向于汇集附近像素,模型倾向于聚集部分注意力头部的像素附近,并且在预训练阶段,局部强度与掩码比和掩码补丁大小高度相关。但监督模型倾向于在较低的层局部地注意,较高层更全局地注意。
(We start with studying the attention maps of the pre-trained models. Firstly, we visualize the averaged attention distance in MIM models, and we find that masked image modeling brings locality inductive bias to the trained model, that the models tend to aggregate near pixels in part of the attention heads, and the locality strength is highly correlated with the masking ratio and masked patch size in the pre-training stage. But the supervised models tend to focus locally at lower layers but more globally at higher layers)
接下来,我们将探讨MIM训练的Transformer中注意力头部的行为有何不同。我们发现,根据不同头部的注意力图上的大KL差异,在MIM模型中的所有层上,不同的注意力头倾向于聚集不同的令牌。但对于监督模型,注意力头的多样性随着层的深入而减少,在最后三层中几乎消失。我们在微调过程中删除了监督预训练模型的最后几层,并发现这有利于下游任务的微调性能,但在MIM模型中没有观察到这种现象。也就是说,注意力头部的多样性降低会在一定程度上损害下游任务的表现。
We next probe how differently the attention heads in MIM trained Transformer behave. We find that different attention heads tend to aggregate different tokens on all layers in MIM models, according to the large KL-divergence on attention maps of different heads. But for supervised models, the diversity on attention heads diminishes as the layer goes deeper and almost disappears in the last three layers. We drop the last several layers for supervised pre-trained models during fine-tuning and find that it benefits the fine-tuning performance on downstream tasks, however this phenomenon is not observed for MIM models. That is, less diversity on attention heads would somewhat harm the performance on downstream tasks.
然后,我们通过中心核对齐(CKA)的相似性度量检查MIM和监督模型的深度网络中的表示结构[41]。我们惊奇地发现,在MIM模型中,不同层的特征表示具有高度相似性,其CKA值都非常大(例如,[0.9,1.0])。但对于监督模型,如[63]中所示,不同层学习不同的表示结构,其CKB相似性差异很大(例如,[5,1.0])。为了进一步验证这一点,我们在微调期间加载随机洗牌层的预训练权重,并发现监督的预训练模型比MIM模型遭受的损失更大。
Then we examine the representation structures in the deep networks of MIM and supervised models via the similarity metric of Centered Kernel Alignment (CKA) [41]. We surprisingly find that in MIM models, the feature representations of different layers are of high similarity, that their CKA values are all very large (e.g., [0.9, 1.0]). But for supervised models, as in [63], different layers learn different representation structures, that their CKA similarities vary greatly (e.g., [0.5,1.0]). To further verify this, we load the pre-trained weights of randomly shuffled layers during fine-tuning and find that supervised pre-trained models suffer more than the MIM models.
从实验的角度来看,基础的预训练任务应该能够受益于广泛的任务,或者至少知道MIM模型在哪些类型的任务上比监督对手更有效是很重要的。为此,我们通过比较MIM和监督预训练模型在三种类型的任务(语义理解任务、几何和运动任务以及同时执行这两种任务的组合任务)上的微调性能进行了大规模研究。
对于语义理解任务,我们选择了几个具有代表性和多样性的图像分类基准,包括概念泛化(CoG)基准[66]、广泛使用的12个数据集基准[42],以及细粒度分类数据集iNnaturalist-18[73]。对于分类被ImageNet类别充分覆盖的分类数据集(例如CIFAR-10/100),监督模型可以实现比MIM模型更好的性能。然而,对于其他数据集,如细粒度分类数据集(如Food、Birdsnap、iNaturalist),或具有不同输出类别的数据集(例如CoG),监督模型中的大多数表示能力很难迁移,因此MIM模型显著优于对应的监督模型。
对于需要较弱语义和高分辨率对象定位能力的几何和运动任务,如COCO[52]和CrowdPose[48]上的姿态估计,NYUv2[68]和KITTI[22]上的深度估计,以及GOT10k[36]、TrackingNet[59]和LaSOT[20]上的视频对象跟踪,MIM模型在很大程度上优于监督模型。注意,在没有铃声和哨声的情况下,带有MIM预训练的Swin-L可以在这些基准上实现最先进的性能,例如,姿势估计的COCO val上的80.5 AP,COCO测试开发上的78.9 AP,CrowdPose上的78.0 AP,深度估计的NYUv2上的0.287 RMSE和KITTI上的1.966 RMSE,以及视频对象跟踪的LaSOT上的70.7 SUC。
我们选择COCO上的对象检测作为同时执行语义理解和几何学习的组合任务。对于COCO上的对象检测,MIM模型将优于受监督的模型。通过调查对象分类和定位的训练损失,我们发现MIM模型有助于定位任务更快地收敛,监督模型更有利于对象分类,COCO的类别被ImageNet完全覆盖。
一般而言,MIM模型在语义较弱的几何/运动任务或细粒度分类任务上的表现明显优于监督模型。对于监督模型擅长迁移的任务/数据集,MIM模型仍然可以实现极具竞争力的传输性能。现在似乎是时候将掩码图像建模作为一种通用的预训练模型了。我们希望我们的论文能够在社区中推动这种信念的深入,并在这个方向上激发新的坚实的研究。
2 背景
掩码图像建模。 掩码图像建模(MIM)是掩码信号预测的一个子任务,它掩码一部分输入图像,并允许深度网络预测以可见图像为条件的掩码信号。我们在可视化和实验中使用SimMIM[77],这是一个用于掩码图像建模的简单框架,作为预训练图像模型的示例框架,因为它简单、有效且普遍适用。SimMIM由四个具有简单设计的主要组件组成:1)具有适度大的掩码补丁大小(例如,32)的随机掩码;2) 掩码令牌和图像令牌一起被馈送到编码器;3) 预测头像线性层一样轻:4)直接预测RGB值的原始像素作为目标,直接回归损失为。通过这些简单的设计,SimMIM可以在ImageNet-1K分类、COCO对象检测和ADE-20K语义分割方面实现最先进的性能。注意,SimMIM框架可以直接应用于不同类型的主干架构,如视觉Transformer(ViT)[17]、SwinTransformer[55]和ConvNets[33,15]。这一特性使我们能够研究不同类型的主干架构以及多种类型的下游任务下MIM的特性。
主干架构。 掩码图像建模主要在Transformer架构中进行研究,因此本文中的主要理解和实验是在视觉Transformer(ViT)[17]和SwinTransformer[55,54]上进行的。由于ViT的架构设计简单明了,大部分可视化都是在ViT上进行的,如第3节所示。由于Swin Transformer的通用特性,大多数针对不同下游任务的实验都在Swin Transform上进行,如第4节所示。
3 可视化
3.1 揭示注意力图的益处
注意机制[1]是深度网络中的一个特殊组成部分。这自然是可以解释的,因为注意力权重具有明确的含义:在确定当前令牌的输出表示时,每个令牌的权重是多少。幸运的是,大多数MIM预训练模型[17、2、30、85、77]都建立在视觉Transformer上,其中自注意块是其主要组成部分。在这里,我们从三个角度开始研究预训练模型的注意力图:(a)平均注意力距离,以测量它是局部注意力还是全局注意力;(b) 注意力分布熵,以衡量它是聚焦注意力还是广播注意力(focused attention or broad attention);(c) 不同注意头的KL散度,以调查这些注意头是在注意不同的令牌还是类似的令牌(to investigate that attention heads are attending different tokens or similar ones.)。
3.1.1 局部注意还是全局注意?
观察到图像具有很强的局部性:彼此相邻的像素往往高度相关[37],这促使在广泛的视觉感知架构中使用局部先验[21,46,44,33,55]。在视觉Transformer时代,局部先验的有用性仍然经历了丰富的讨论和试验[17,55,49]。因此,研究MIM模型是否会给模型带来局部归纳偏置是很有价值的。我们通过计算每个层的每个注意力头部的平均注意力距离来实现这一点。
图1显示了不同注意力头部(点)中的平均注意力距离,包括层数、监督模型(DeiT)、对比学习模型(MoCo v3)和以ViT-B为主干的SimMIM模型。我们发现,监督模型倾向于较低层局部注意,但较高层更全局地注意,这与ViT[17]中的观察结果非常吻合。令人惊讶的是,对比学习模型的行为与受监督的学习模型非常相似。这也可以理解,因为MoCo v3在ImageNet1K上具有非常高的线性评估精度(前1精度的76.7%),这表明MoCo v3的最后一层的特征与受监督的对应层的特征非常相似。但对于SimMIM训练的模型,其行为与监督和对比学习模型有显著不同。每一层都有不同的倾向于聚集局部和全局像素的注意力头部,并且平均注意力距离与受监督模型的较低层相似(Each layer has diverse attention heads that tend to aggregate both local and global pixels, and the average attention distance is similar to the lower layers of the supervised model)。随着层数的增加,平均注意力距离变得甚至略小(even slightly smaller)。也就是说,MIM给训练的模型带来了局部归纳偏置,即模型倾向于在注意力头部分聚集附近的像素(tend to aggregate near pixels in part of the attention heads)。同样,以Swin-B为主干也可以观察到类似的观察结果,如图2(b)所示。
SimMIM[77]设计了一种新的度量,AvgDist,它测量掩码像素到最近可见像素的平均欧几里德距离,并根据掩码比和掩码补丁大小指示MIM的任务难度和有效性(which measures the averaged Euclidean distance of masked pixels to the nearest visible ones and indicates the task difficulty and effectiveness of MIM depending on the masking ratio and masked patch size)。如图2(a)所示,AvgDist是一个很好的指标,表明高微调精度的模型大致分布在AvgDist[10,20]的范围内,而AvgDist越小或越高的表现越差。有趣的是,在AvgDist的[10,20]范围内,我们还可以观察到较小的平均注意力距离。也就是说,MIM中适度的预测距离将带来更大的局部强度,并带来更好的微调性能。
3.1.2 聚焦注意力还是广播注意力?
然后,我们通过平均每个头部的注意力分布的熵,来测量注意力图,以确定注意力头部是注意在几个token上还是广泛注意多个token。图3显示了三个预训练模型(监督模型(DeiT)、对比学习模型(MoCo v3)和以ViT-B为骨干的MIM模型(SimMIM)的不同层的熵值结果。对于监督模型,我们发现在较低层中的一些注意力头部具有非常集中的注意力,但在较高层中,大多数注意力头部的注意力都非常广泛。对比模型的行为仍然与监督模型非常相似。但是对于MIM模型,不同注意力头部的熵值在所有层中都是不同的,一些注意力头部更加集中,一些头部具有非常广泛的注意力。
3.1.3 注意头的多样性(Diversity on Attention Heads)
从前面的两个小节中,我们观察到了一个类似的现象,即对于监督模型,最后几层中注意力头部的注意力距离或熵似乎是相似的,而对于MIM模型,所有层中的不同头部的行为更为不同。因此,我们希望通过计算每个层中不同头部的注意力图之间的Kullback–Leibler(KL)散度[45],进一步探索不同头部是否注意不同/相似的令牌(whether the different heads pay attention to different/similar tokens)。
图4所示为三个预训练模型(监督模型(DeiT)、对比学习模型(MoCo v3)和以ViT-B为主干的MIM模型(SimMIM)的不同层,不同头部注意力分布的KL差异结果。正如我们所预期的,根据不同头部的注意力图上的大KL差异,在MIM模型的所有层上,不同的注意力头倾向于聚合不同的token。但对于监督模型和对比学习模型,注意力头部的多样性随着层次的加深而变小,几乎从最后三个层次消失。
直观地说,失去不同注意力头部的多样性可能会限制模型的容量。为了调查注意力头部的多样性损失是否有任何不利影响,我们从最后开始逐渐删除层,并在为COCO val2017姿态估计和NYUv2深度估计的下游任务微调模型时仅加载先前的层。从图5中,我们可以观察到,当我们丢弃两到八层时,尽管模型变小,但监督预训练模型在COCO val2017姿态估计上的性能优于基线,并且在NYUv2深度估计上的表现与基线相当。这表明,在有监督的预训练模型中,注意力头部差异较小的最后一层确实会影响下游任务的执行。本实验的详细设置见附录。
3.2 通过CKA相似性研究表征结构
研究注意力机制的行为是从微观角度分析块内部。接下来,我们希望从深层网络的宏观角度进行研究,例如通过CKA相似性研究不同层的特征图之间的相似性[41]。图6显示了三个预训练模型(监督模型(DeiT)、对比学习模型(MoCo v3)和以ViT-B为主干的MIM模型(SimMIM)的不同层的特征表示之间的CKA相似性结果。我们惊奇地发现,在MIM模型中,不同层的表示结构几乎相同,它们的CKA相似性都非常大(例如,[0.9,1.0])。但对于监督模型,如[63]中所示,不同层学习不同的表示结构,它们的CKDA相似性差异很大(例如,[0.5,1.0])。与之前的可视化不同,在本例中,MoCo v3的行为类似于SimMIM。
为了进一步验证这一观察结果,我们加载随机洗牌层的预训练权重,并针对COCO姿态估计和NYUv2深度估计的下游任务微调模型。我们观察到,通过使用随机采样层加载模型,1K-MIM的性能在姿态估计上从75.5下降到75.2(-0.3),在深度估计上从0.382下降到0.434(-0.052)。但监督预训练模型比MIM模型受到的影响更大,在姿态估计上从75.8下降到74.9(-0.9),在深度估计上从0.376下降到0.443(-0.067)。本实验的详细设置见附录。
4 三种下游任务的实验分析
在本节中,我们通过比较MIM和监督预训练模型在三种类型的任务上的微调性能进行了大规模研究,即语义理解任务(例如,不同领域中的图像分类)、几何和运动任务(例如姿势/深度估计和视频对象跟踪)、,以及同时执行两种类型的任务(例如对象检测)的组合任务。我们使用8个NVIDIA V100 GPU进行实验
4.1 语义理解任务
对于语义理解任务,我们选择了几个具有代表性和多样性的图像分类基准,包括概念泛化(CoG)基准[66]、广泛使用的12个数据集基准[42],以及细粒度分类数据集iNnaturalist-18[73]。
设置。 CoG基准包括从ImageNet-21K中分离出来的五个1k类别数据集,ImageNet-21K与ImageNet-1k之间的语义差距越来越大,从L1到L5。在CoG数据集上,我们基于L1验证集的前1精度搜索最佳超参数,然后将最佳设置应用于CoG L2到L5以报告前1精度。在K12数据集上,我们采用了训练/值/测试集的标准分割,如[42]所示。我们使用训练集来微调模型,使用验证集来搜索最佳超参数,然后使用最佳设置在合并的训练集和验证集上训练模型。根据[42],我们报告了Aircraft、Pets、Caltech-101、Oxford 102 Flowers的平均每级精度以及其他数据集的前1级精度。iNat18数据集包括437513张训练图像和24426张验证图像,包含8000多个类别。我们使用训练集对预训练的模型进行微调,并报告验证集的前1精度。对于所有数据集,我们分别为MIM预训练模型和监督预训练模型在有效集上选择学习率、权重衰减、层衰减和DropPath[34]。我们使用AdamW优化器[58]和余弦学习速率表。我们训练模型100个阶段,20个预热阶段。输入图像大小为224×224。这些数据集的其他详细设置见附录。
结果 不同语义理解任务的结果如表1所示。对于类别被ImageNet类别充分覆盖的分类数据集(例如CIFAR-10/100),作为预训练,监督模型可以获得比MIM模型更好的性能。然而,对于其他数据集,如细粒度分类数据集(如Food、Birdsnap、iNaturalist),或具有不同输出类别的数据集(例如CoG),受监督模型中的大多数表示能力难以转移;因此MIM模型显著优于受监督的模型。
4.2 几何和运动任务
我们研究MIM模型如何执行几何和运动任务,这些任务需要定位对象的能力,并且较少依赖于语义信息。我们选择了几个基准,例如COCO[52]和CrowdPose[48]上的姿态估计,NYUv2[68]和KITTI[22]上的深度估计,以及GOT10k[36]、TrackingNet[59]和LaSOT[20]上的视频对象跟踪。
设置。 对于COCO和Crowdpose的姿态估计,我们使用标准分割进行训练和评估,并报告基于OKS的AP作为评估度量。我们使用[75]中的标准人检测结果。我们遵循简单基线[75],该基线通过反进化对主干的最后一个特征进行上采样,并以4倍分辨率预测热图。数据增强包括随机翻转、半身变换、随机缩放、随机旋转、网格丢失和颜色抖动。默认情况下,输入图像大小为256×256。我们使用AdamW[58]优化器,基本学习率为5e-4,权重衰减为5e-2。在第120个时期,学习率下降到5e-5。我们训练了150个时期的模型。我们对Swin-B/L使用0.9/0.85的层衰减,对Swin-B-L使用0.3/0.5的DropPath[34]。
对于NYUv2和KITTI的深度估计,我们使用标准分割并报告RMSE(均方根误差)作为评估度量。为了与之前的工作[64,38]进行比较,我们将NYUv2/KITTI的最大范围设置为10m/80m。深度估计的头部与姿态估计的头部相同,并且由反卷积组成。与GLPDepth[38]类似,我们使用以下数据增强:随机水平翻转、随机亮度/伽马/色调/饱和度/值和随机垂直CutDepth。我们将NYUv2/KITTI数据集的图像随机裁剪为480×480/352×352大小。优化器、层衰减和DropPath与姿势估计相同。学习率通过系数为0.9的多项式策略进行调度,最小值为3e-5,最大值为5e-4。纪元总数为25。我们使用翻转测试和滑动窗口测试。
按照前面的方法[51,12],我们在四个数据集GOT10k[36]、TrackingNet[59]、LaSOT[20]和COCO[52]的序列分割上训练模型,并报告TrackingNet数据集和LaSOT数据集的成功分数(SUC),以及GOT10k的平均重叠(AO)。我们使用SwinTrack[51]以相同的数据扩充、训练和推理设置来训练和评估我们的预训练模型。我们每个历元采样131072对,并为300个历元训练模型。我们使用AdamW优化器,头部学习率为5e-4,主干学习率为5 e-5,权重衰减为1e-4。在第210个时期,我们将学习率降低0.1。我们将搜索图像和模板的大小设置为224×224和112×112。
结果 从表2可以看出,对于姿势估计,使用ImageNet-1K预训练的MIM模型在很大程度上超过了受监督的模型,COCO val上的AP为2.4,COCO测试开发上的AP是2.2,CrowdPose数据集上的AP则是4.2,其中包含更多拥挤的场景。即使使用ImageNet-22K对受监督的模型进行预训练,其性能仍比使用ImageNet-1K预训练的MIM模型差。SwinV2-L的观察结果与SwinV2-B的观察结果相似。MIM预训练SwinV2-L的图像大小为384×384,在COCO测试设备上达到78.4,在具有挑战性的CrowdPose数据集上达到77.1。使用BigDetection[3]的更强检测结果,我们在COCO val上获得80.5 AP,在COCO测试开发上获得78.9 AP,在CrowdPose上获得78.0 AP。
对于深度估计,使用简单的反卷积头,使用ImageNet-1K进行MIM预训练的SwinV2-B在NYUv2上达到0.304 RMSE,在KITTI上达到2.050 RMSE,优于之前的SOTA方法BinsFormer-L[50]。与ImageNet-22K的监督预训练相比,MIM预训练确实将SwinV2-B的性能提高了0.03 RMSE。请注意,在监督预训练的情况下,较大的模型SwinV2-L对NYUv2数据集没有任何增益,而在MIM预训练的条件下,SwinV2-L比SwinV2-B的RMSE增益约为0.02。
对于视频对象跟踪,MIM模型也显示出比监督预训练模型更强的传输能力。在长期数据集LaSOT上,具有MIM预训练SwinV2-B骨干的SwinTrack[51]获得了与SOTA MixFormer-L[12]相当的结果,图像大小更大,为320×320。我们在具有SwinV2-L骨干的LaSOT上获得了70.7的最佳SUC,输入图像大小为224×224,模板大小为112×112。
4.3 目标检测的组合任务
我们选择COCO上的对象检测作为同时执行语义理解和几何学习的组合任务。对于目标检测,采用Mask RCNN[32]框架,并使用3×调度(36个时期)进行训练。我们使用AdamW[39]优化器,监督/MIM模型的学习率为6e-5/8e-5,权重衰减为0.05,批量大小为32。我们采用了大抖动增强(1024×1024分辨率,比例范围[0.1,2.0])。
在COCO上,我们可以清楚地观察到,MIM模型优于以SwinV2-B为骨干监督模型(box/maskAP的52.9/46.7 vs.51.9/45.7)。我们还绘制了对象分类Lcls和定位Lbbox的损失曲线,如图7所示。我们发现MIM模型有助于定位任务更快更好地收敛,而监督模型更有利于对象分类。这也与我们之前的观察结果一致,即MIM模型在几何和运动任务上的表现更好,而在其类别被ImageNet(如COCO)充分覆盖的任务上,MIM模型的表现相当或稍差。
5 相关工作
视觉预训练。 在整个深度学习时代,ImageNet上的监督分类[13]一直是主要的预训练任务。发现它在许多语义理解任务上提供了强大的微调性能[16,42,40,17,67,25,55,57,69,6]。在过去几年中,自监督预训练受到了越来越多的注意,并在几个具有代表性的下游任务[31,8]上实现了与受监督的同行相同的微调性能,包括两个具有代表性任务,对比学习[18,31,8,5,27]和掩码图像建模[7,2,30,77]。在我们的工作中,我们专注于理解监督和紧急MIM预训练的不同行为。
理解预训练。 有一些杰出的著作[78,42,81,61,60,63,62]试图理解预训练程序,并在广泛的范围内启发许多后续工作。[78]揭示了深度神经网络中不同层的特征是如何传递的。[42]对不同的主干进行了充分的实验研究,并试图回答更好的ImageNet模型是否传递更好。一些工作[63、84、63]试图通过CKA[41]、损失景观[47]和傅里叶分析来理解ViT的行为。在NLP中,在BERT[14]预训练出来之后,也有很多工作[43,28,10,29]试图理解它。其中大多数工作都集中在Transformer的唯一可解释的组件,自注意块上,以给出一些详细的理解。
6 结论
在这项工作中,我们对掩码图像建模进行了充分而合理的分析,以揭示MIM模型如何以及在哪里工作良好。从可视化中,我们最有趣的发现是,MIM预训练为训练模型带来了局部性,注意力头部具有足够的多样性。这揭示了MIM对视觉Transformer(ViT、Swin等)非常有用的原因,因为视觉Transformer具有更大的感受野,并且很难将其优化为具有强大泛化能力的解决方案。在实验中,我们最有趣的发现是MIM预训练可以在语义较弱的几何和运动任务上表现得非常好。这一发现有助于模型在这些基准测试上实现最先进的性能,而无需吹哨(bells and whistles)。
现在似乎是时候将掩码图像建模作为一种通用的预训练模型。我们希望我们的论文能够在社区中推动这种信念的深入,并在这个方向上激发新的坚实的研究。理解论文的最佳目的地是出现在未来技术的动机中。
附录
A.1 SwinTransformer的可视化
了解我们在可视化中的观察结果在不同的主干架构中是否通用至关重要。由于SimMIM[77]的普遍适用性,我们进一步在SwinV2-B[54](A部分)和RepLKNet[15](B部分)上进行了可视化。幸运的是,我们发现大多数观察结果都可以跨架构(ViT-B、SwinV2-B和RepLKNet)传输。
A.1 注意力图的可视化
局部注意还是全局注意? 结果如图8所示。首先,我们可以得到与ViT-B中类似的观察结果,即监督模型(a)倾向于较低层局部注意,但较高层更全局地注意,而SimMIM模型(B)倾向于所有层中注意的局部和全局像素,并且SimMIM模型的平均注意距离与监督对应模型的较低层相似。带SimMIM预训练、监督微调的模型(c)的行为与从头开始训练的监督模型非常相似,但保留了一些SimMIM预训练的益处(最后几层的差异较大)。此外,我们发现两个连续层中的平均注意距离为一高一低。这是由于Swin Transformer中的移位窗口方案,即每个像素可以在两个连续层中注意的范围不同。
集中注意力还是广泛注意力? 如图9所示,使用Swin-B作为主干可以发现与使用ViT-B作为主干类似的观察结果。
注意力集中的多样性 如图10所示,类似于ViT-B,在SimMIM模型(b)中,在所有层上,不同的注意力倾向于注意不同的令牌。但对于监督模型(a),随着层的深入,注意力头部的多样性变得更小。有趣的是,在ImageNet-1K上对SimMIM模型进行监督微调后,模型(c)的行为与从头训练的监督模型(a)更为相似,但保持了SimMIM模式的优势,即在最后两层的注意力头上具有更大的多样性。
A.2 通过CKA相似性研究表征结构
分析和比较深度网络的层表示具有挑战性,因为它们的特征是高维的,并且具有不同的维度。中心核对齐(Centered kernel alignment,CKA)[41]是为了解决这一挑战而定义的,它能够对同一网络内部和不同网络之间的特征表示进行定量比较。给定和的两个输入,其中表示示例数,和表示维数。然后将Gram矩阵计算为和。CKA则定义为:
(1)
其中表示希尔伯特-施密特独立性准则[26](Hilbert-Schmidt independence criterion)。注意,CKA对于正交变换和各向同性缩放是不变的,这使得能够对深度网络的隐藏表示进行有价值和有效的比较和分析。
图11显示了以SwinV2-b为骨干的(a)监督模型、(b)SimMIM模型和(c)SimMIM预训练、监督微调模型上不同层特征表示之间的CKA相似性结果。我们仍然有类似于ViT-B的观察,SimMIM模型中不同层的表示结构几乎相同,从头训练的监督模型在不同层中学习不同的表示结构。在SimMIM预训练的帮助下,监督模型中不同层的表示结构与从头监督模型中的不同。
B 对大核卷积网的研究(RepLKNet[15])
从先前对视觉Transformer(ViT)和SwinTransformer的可视化中,我们发现,与监督模型相比,MIM预训练给训练模型带来了局部归纳偏置和更大的注意力头部多样性,这可能有助于对下游任务的训练模型进行优化。这提醒我们,没有特殊设计的大核ConvNets[15]仍然面临优化问题,需要使用小核的重新参数化技巧来恢复局部性并帮助它们进行优化。因此,了解作为预训练的掩码图像建模(MIM)是否可以帮助大核ConvNets在无需重参数化技巧的情况下进行优化是很有价值的。由于SimMIM[77]的普遍适用性,我们还可以通过MIM预训练在大核ConvNets[15]上进行实验和可视化。
B.1 实验结果
设置 对于MIM预训练,我们使用RepLKNet-31B[15],无需特殊设计的重参数化技巧。在RepLKNet的stem之前,使用普通的1×1卷积,我们将图像的三维空间映射到高维空间,在那里我们随机屏蔽掉一些补丁。根据SimMIM[77],图像大小为192×192,我们将其划分为一些6×6patches,并随机屏蔽掉60%的patches。解码器包含线性投影层和上采样层。我们使用来监督被掩码像素的重建。
我们使用ImageNet-1k进行MIM预训练,并使用随机调整大小裁剪(比例范围[0.67,1]和纵横比范围[3/4,4/3])和随机翻转来增强数据。优化器是AdamW[58]优化器,权重衰减为5e-2,基础学习率为4e-4。我们使用10个阶段的热身,在第260个阶段将学习率降至4e-5,总共训练300个阶段。批处理大小为2048。对于RepLKNet-31B和渐变剪裁,我们使用0.1的DropPath。
我们使用原始论文[15]中报告的ImageNet-1k上监督预训练模型的最高精度。对于ImageNet-1k上的MIM预训练模型的微调,我们遵循SimMIM[77]的设置,并使用权重衰减为5e-2的AdamW优化器,基本学习率为5e-3,层衰减为0.8。学习速度是通过余弦策略安排的,我们使用20个时间段进行热身,总共训练100个时间段。批处理大小为2048。我们采用0.1的DropPath和渐变剪裁。数据扩充包括AutoAug[11]、Mixup[82]、CutMix[80]、颜色抖动、随机擦除[83]和标签平滑[71]。姿势估计的设置与第E节中的细节相同。
结果 如表3所示,与具有重参数化技巧的监督模型相比,MIM预训练可以帮助大型核Transformer在一定程度上解决优化问题,并在ImageNet-1K上实现同等性能。注意,在姿态估计方面,MIM模型仍然以较大的幅度超过了具有重参数化技巧的受监督模型,这表明MIM预训练对几何和运动任务的好处在不同的主干架构中是普遍的。
B.2 可视化
为了进一步了解带有MIM预训练的大核卷积网的行为是否与Vision/Swin Transformers的行为相似,我们使用用于可视化注意力图的类似工具来可视化卷积核。由于RepLKNet中的基本组件是核维度为C×H×W的深度卷积,因此我们将深度卷积核的每个通道(在H×W维度上)归一化,以使它们成为注意图的类似角色,并将深度卷积核的不同通道(C通道)视为注意头。然后,我们可以直接将前面的工具应用到注意力图上进行可视化。
局部核还是全局核? 如图12所示,通过重新参数化技巧,具有监督训练的RepLKNet-31B模型(b)更加集中于所有层中的局部。与以前的监督训练模型类似,具有监督训练的RepLKNet-31B模型仍然倾向于较低层局部注意,但较高层更全局地注意。但是对于SimMIM(c)训练的模型,每一层都具有不同的倾向于聚合局部和全局像素的核,并且平均聚合距离远小于没有重新参数化技巧(a)的监督训练模型,表明MIM仍然给大核卷积网带来局部归纳偏置,具有类似于重新参数化技巧的作用。
集中核还是广泛核? 如图13所示,通过重新参数化技巧,受监督的RepLKNet-31B模型(b)在较低层具有非常集中的注意力,但在较高层具有更广泛的注意力。但是对于MIM模型(c),不同核中的熵值在所有层中focus diversely,有些核更为聚焦,有些核的注意力更为广泛(the entropy values in different kernels focus diversely in all layers, that some kernels are more focused and some kernels have very broad attention)。这些观察结果与视觉/SwinTransformer中的观察结果非常吻合。
不同核的多样性
有趣的是,在图12中,具有重新参数化技巧的监督模型和SimMIM模型中的不同核似乎具有不同的平均聚集距离。但在图14中,我们可以清楚地观察到,SimMIM模型(c)的不同卷积核上的多样性显著大于受监督的对应体(b),特别是对于较深的层。
C 语义理解任务的详细结果
表4和表5分别显示了Kornblith 12数据集分类基准[42]和概念泛化(CoG)基准[66]与使用SwinV2-B作为主干的细粒度分类数据集iNnaturalist-18[73]的详细比较。这些结果已经在主论文的第4.1节中进行了讨论。
D 语义分割的组合任务的比较
我们进一步选择ADE-20K上的语义分割作为另一个同时执行语义理解和几何学习的组合任务。对于该任务,我们选择了两个不同的框架UperNet[76]和Mask2former[9]进行评估。详细设置见第E节。
结果见表6。与COCO不同,我们发现监督预训练模型在ADE-20K语义分割上略优于MIM模型。因此,对于组合的任务,可能很难预测哪个预训练的模型会表现得更好。但如果模型变大,MIM模型仍具有独特的优势,即MIM任务比监督任务更难过度拟合[30,77],这超出了本文的范围。此外,我们可以观察到,Mask2former上的监督模型和MIM模型之间的性能差距小于UperNet(−1.6 v.s.−0.6)。这可能是因为Mask2former将语义分割任务分解为对象定位和识别任务,而MIM更擅长对象定位任务,如主要论文的图7所示。
E 详细设置
概念泛化基准(CoG)。 概念泛化基准(CoG)由从ImageNet-22K分离的五个1k类别数据集组成,这些数据集与ImageNet-1k之间的语义差距从L1增加到L5。在CoG数据集上,为了公平比较,我们首先对CoG L1训练集上的模型进行微调,并基于CoG L1的验证前1精度搜索最佳超参数,然后将搜索到的设置直接应用于CoG L2到L5,并报告前1精度。详细的超参数如表7所示。
Kornlith等人的12个数据集基准(K12)和iNnaturalist-18(iNat18)。 在K12数据集上,我们遵循先前的标准设置[42],使用训练集和验证集来搜索最佳超参数,然后将训练集和确认集合并为最终训练集和搜索的最佳超参数并在测试集上评估最终训练模型。我们采用[42]中的列车/值/测试集的标准分割。对于Aircraft、Pets、Caltech-101、Oxford 102 Flowers,采用平均每级精度度量,对于其他数据集,采用前1级精度。对于K12,我们遵循[42]选择最佳学习速率、权重衰减、层衰减和下降路径速率。在试点实验中,我们发现,对于1K-SUP预训练模型,下降路径速率可以固定为0.2,而对于1K-MIM预训练模型而言,在较小的数据集上,如斯坦福汽车、FGVC飞机、DTD、Caltech101、Flowers102和牛津宠物,下降路径率首先固定为0.0,对于其他数据集固定为0.2。重量衰减可以固定为0.05。然后我们对学习率和层衰减进行网格搜索。对于1K-MIM预训练模型,我们的网格由5个近似对数间隔的学习率组成,学习率介于1.25e-4和2.5e-3之间,3个等间隔的层衰减介于0.75和0.95之间。对于1K-SUP预训练模型,我们的网格包括5个近似对数间隔的学习率,介于2.5e-5和5e-4之间,3个等间隔的层衰减,介于0.75和0.95之间。然后,我们在网格搜索中的最佳设置附近调整学习速率、层衰减和下降路径速率,以获得最终结果。
iNat18数据集包括437513张训练图像和24426张验证图像,包含8000多个类别。iNat18的详细超参数如表7所示。
姿势估计。 我们在COCO[52]和CrowdPose[48]数据集上比较了MIM和监督预训练模型的性能。对于COCO数据集,我们在train2017集合(57K训练图像)上训练模型,并报告COCO val2017分割(5K图像)、COCO test-dev2017分割(20K图像)的性能。对于CrowdPose数据集,在DEKR[23]之后,我们在CrowdPos训练和val集合(12K训练图像)上训练模型,并在测试分割(8K图像)上进行评估。采用基于OKS的标准平均精度作为所有数据集的评估指标。
我们采用基于热图的自上而下管道。我们通过反进化对主干的最后一个特征进行上采样,并以4倍分辨率预测热图,如简单基线[75]。
在主要论文第3.1.3节中关于脱落层数的烧蚀研究中,我们将SwinV2-B第三阶段不同层的特征输入到姿态头中。我们观察到,当我们在第九层使用该特征时,受监督的预训练模型和MIM预训练模型的下游性能几乎相当,因此我们将该模型用作主论文第3.2节中随机抽样预训练权重的实验的基线。在随机抽样预训练权重的实验中,我们从第三阶段的十八个预训练层的权重中随机抽样九个层的权重,然后将它们加载到前九个层。
数据扩充包括随机翻转、半身变换、随机缩放(0.5,1.5)、随机旋转(−40◦ , 40◦ ), 网格丢失和颜色抖动(h=0.2,s=0.4,c=0.4,b=0.4)。输入图像大小默认为256×256。我们使用AdamW[58]优化器,基本学习率为5e-4,权重衰减为5e-2。在第120个时期,学习率下降到5e-5。我们总共训练了150个时代的模型。我们对Swin-B/L使用0.9/0.85的层衰减,对Swin-B-L使用0.3/0.5的DropPath[34]。批量大小为512。
对于COCO数据集,我们使用先前方法[70,75]的人员检测结果进行公平比较。对于CrowdPose数据集,我们使用级联掩码rcnn[4],在COCO检测数据集上训练了Swin-B骨干以生成人检测结果。我们使用UDP[35]来减少热图带来的量化误差,并通过在推断期间对原始图像和翻转图像预测的热图进行平均来使用翻转测试。
深度估计。 我们在NYUv2[68]和KITTI[22]单眼深度估计数据集上评估MIM和监督预训练模型的性能。NYUv2数据集包括由Microsoft Kinect相机拍摄的464个室内场景。官方训练分割(24K图像)用于训练,我们报告了来自215个室内场景的654个测试图像的RMSE(均方根误差)。KITTI数据集包含各种驾驶场景。特征分裂[19]包含23K个训练图像和697个测试图像。为了与之前的方法[64,38]进行比较,我们将NYUv2的最大范围设置为10m,KITTI的最大范围为80m。
深度估计的头部与姿态估计的头部相同,由三个反卷积(BN和ReLU)和一个正常卷积组成。去卷积的核和滤波器分别为2和32。
与GLPDepth[38]类似,我们使用了以下数据增强:随机水平翻转、随机亮度(-0.2,0.2)、随机伽马(-0.2、0.2)、任意色调(-20,20)、随机饱和度(-30,30)、随机值(-20,30)和随机垂直CutDepth。我们将NYUv2数据集的图像随机裁剪为480×480大小,KITTI数据集的尺寸为352×352大小。优化器、层衰减和DropPath与姿势估计相同。学习率通过系数为0.9的多项式策略进行调度。最小学习率和最大学习率分别为3e-5和5e-4。批量大小为24。纪元总数为25。我们对SwinV2主干使用翻转测试和滑动窗口测试。我们对NYUv2数据集的两个方形窗口和KITTI数据集的十六个方形窗口的预测进行了平均。
视频对象跟踪。 遵循先前的技术,我们在四个数据集GOT10k[36]、TrackingNet[59]、LaSOT[20]和COCO[52]的训练分割上训练模型,并报告TrackingNet数据集和LaSOT数据集的成功分数(SUC)。对于GOT10k测试集,我们报告平均重叠作为评估度量。GOT10k和TrackingNet是两个短期大规模基准,GOT10k测试集包含180个视频序列,TrackingNet测试集包含511个视频序列。LaSOT是一个长期跟踪基准,有280个视频序列,平均长度约为2500帧。
我们使用SwinTrack[51]来评估我们的预训练模型。数据扩充和训练设置严格遵循SwinTrack[51]。我们每个历元采样131072对,并为300个历元训练模型。我们使用AdamW优化器,头部学习率为5e-4,主干学习率为5 e-5,权重衰减为1e-4。在第210个时期,我们将学习率降低0.1。我们将搜索图像和模板的大小设置为224×224和112×112。批量大小为160。推理过程与SwinTrack[51]相同。
目标检测。 在[77]之后,我们采用掩码RCNN[32]框架来评估COCO对象检测的预训练模型。所有模型均采用3×时间表(36个时期)进行训练。我们使用AdamW[39]优化器,监督模型的学习速率为6e-5,MIM模型的学习率为8e-5,两个模型的权重衰减为0.05,批量大小为32。在[24,55]之后,我们采用了大抖动增强(1024×1024分辨率,尺度范围[0.1,2.0])。两个模型的窗口大小都设置为14,监督模型的下降路径速率设置为0.3,MIM模型的下降速度设置为0.1。报告APbox和APmask进行比较。
语义分割。 在[55]之后,UPerNet[76]框架用于ADE-20K语义分割。我们使用AdamW[39]优化器,监督模型的学习速率为8e-5,MIM模型的学习率为1e-4,两个模型的权重衰减为0.05,批量大小为32。这两个模型都利用0.95的分层学习率衰减。所有模型都经过80K迭代训练,输入分辨率为640×640,窗口大小为20。对于监督模型,下降路径速率设置为0.3,对于MIM模型设置为0.1。在推断中,采用了分辨率为2560×640的单尺度测试。
此外,我们还采用Mask2Former[9]来评估ADE-20K语义分割的预训练模型。我们使用AdamW[39]优化器,受监督模型的基础学习率为1e-4,MIM模型的基本学习率为3e-4,受监督和MIM模型权重衰减均为0.05,补丁大小均为16。主干的学习率乘以0.1倍。所有模型都经过160K次迭代训练,输入分辨率为512×512,比例范围为0.5至2,窗口大小为8,下降路径速率为0.3。在推断中,输入分辨率将设置为2048×512。报告mIoU用于UPerNet和Mask2Former的比较。