cs.CV
SimMIM: A Simple Framework for Masked Image Modeling
Authors: Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, Han Hu
Abstract: This paper presents SimMIM, a simple framework for masked image modeling. We simplify recently proposed related approaches without special designs such as block-wise masking and tokenization via discrete VAE or clustering. To study what let the masked image modeling task learn good representations, we systematically study the major components in our framework, and find that simple designs of each component have revealed very strong representation learning performance: 1) random masking of the input image with a moderately large masked patch size (e.g., 32) makes a strong pre-text task; 2) predicting raw pixels of RGB values by direct regression performs no worse than the patch classification approaches with complex designs; 3) the prediction head can be as light as a linear layer, with no worse performance than heavier ones. Using ViT-B, our approach achieves 83.8% top-1 fine-tuning accuracy on ImageNet-1K by pre-training also on this dataset, surpassing previous best approach by +0.6%. When applied on a larger model of about 650 million parameters, SwinV2-H, it achieves 87.1% top-1 accuracy on ImageNet-1K using only ImageNet-1K data. We also leverage this approach to facilitate the training of a 3B model (SwinV2-G), that by 40× less data than that in previous practice, we achieve the state-of-the-art on four representative vision benchmarks. The code and models will be publicly available at https://github.com/microsoft/SimMIM. △ Less
Submitted 18 November, 2021; originally announced November 2021.
本文介绍了SimMIM,一个用于屏蔽图像建模的简单框架。我们简化了最近提出的相关方法,而无需特殊设计,如通过离散VAE或聚类的分块屏蔽和tokenization。为了研究是什么让屏蔽图像建模任务学习到良好的表征,我们系统地研究了框架中的主要组件,发现每个组件的简单设计都显示出非常强的表征学习性能:1)输入图像的随机屏蔽具有中等大的屏蔽patch大小(例如,32)进行强有力的课前任务;2) 通过直接回归预测RGB值的原始像素的性能并不比复杂设计的patch分类方法差;3) 预测头可以像线性层一样轻,性能不比较重的预测头差。使用ViT-B,我们的方法在ImageNet-1K上通过预训练也在该数据集上实现了83.8%的top-1微调精度,比以前的最佳方法高出+0.6%。当应用于大约6.5亿个参数的更大模型SwinV2-H时,它仅使用ImageNet-1K数据就可以在ImageNet-1K上实现87.1%的top-1精度。我们还利用这种方法来促进3B模型(SwinV2-G)的训练,该模型的数据比以前的实践少40倍,我们在四个具有代表性的视觉基准上达到了最先进的水平
1.介绍
“我不能创造,我不理解。”-理查德·费曼“屏蔽信号建模”是一项学习创造的任务:屏蔽一部分输入信号,并试图预测这些屏蔽信号。在NLP中,遵循这一理念,基于屏蔽语言建模任务的自监督学习方法在很大程度上重新绘制了该领域[2,12,30],即通过使用大量未标记数据学习非常大规模的语言模型,并证明可推广到广泛的NLP应用。
在计算机视觉领域,虽然有先驱者利用这一理念进行自监督表征学习[13,57,58],但在前几年,这一领域的工作几乎被对比学习方法所掩盖[8,20,48]。将这项任务应用于语言和视觉领域的不同困难可以通过两种模式之间的差异来解释。其中一个区别是,图像表现出更强的局部性:彼此靠近的像素往往高度相关[25],因此,可以通过复制接近的像素而不是通过语义推理很好地完成任务。另一个区别是视觉信号是原始的和低级的,而文本标记是人类产生的高级概念。这就提出了一个问题,即low-level信号的预测是否对高级视觉识别任务有用。第三个区别是视觉信号是连续的,而文本标记是离散的。如何采用基于分类的屏蔽语言建模方法来处理连续的视觉信号尚不清楚。
直到最近,还进行了一些试验,试图通过引入几种特殊设计来弥合模态差距并解决障碍,例如,通过颜色聚类[7]或通过使用附加网络tokenization[1],调整连续信号进行分类,一种分块屏蔽策略,用于中断短程连接[1],等等。通过这些特殊设计,学习到的表示可以很好地迁移到多个视觉识别任务中。与要求特殊的复杂设计相反,在本文中,我们提出了一个简单的框架,该框架与视觉信号的性质很好地一致,如图1所示,并且能够学习与以前更复杂的方法相似甚至更好的表示:输入图像块的随机屏蔽,使用一个线性层,在“1损失”下回归屏蔽区域的原始像素值。这个简单框架背后的关键设计和见解包括:
•在图像patch上应用随机屏蔽,这对于视觉transformer来说既简单又方便。对于屏蔽像素,更大的patch大小或更高的屏蔽率都会导致找到接近可见像素以预测自身的机会减少。对于大小为32的大型屏蔽patch,该方法可以在广泛的屏蔽率(10%-70%)范围内实现极具竞争力的性能。对于尺寸为8的小屏蔽patch,屏蔽率需要达到80%才能相对良好地执行。请注意,首选屏蔽比与语言域中的屏蔽比非常不同,在语言域中,默认采用0.15的小屏蔽比。我们假设两种模式的不同程度的信息冗余可能导致不同的行为。
•使用原始像素回归任务。回归任务符合视觉信号的连续性,具有有序性。这个简单的任务的性能并不比通过tokenization、集群化或离散化专门定义类的分类方法差。
•采用极轻的预测头(例如,线性层),其迁移性能与较重的预测头(例如,反向Swin-B)类似或略好。使用极轻的预测头在预训练带来了显著的加速。此外,我们注意到,广泛的目标分辨率(例如,122-962)与最高的1922相比具有竞争力。虽然更大的头或更高的分辨率通常会导致更强的generation capability,但这种更强的能力并不一定有利于下游微调任务。
虽然简单,但所提出的SimMIM方法对于表征学习是非常有效的。使用ViT-B,通过在此数据集上进行预训练,它在ImageNet1K上实现了83.8%的top-1微调精度,比以前的最佳方法([1])高出+0.6%。SimMIM还可以扩展到更大的模型:使用SwinV2-H模型(658M参数)[31],它在ImageNet-1K分类中达到87.1%的top-1精度,这是仅使用ImageNet-1K数据的方法中数量最多的方法。这一结果鼓励使用自监督学习来解决因模型容量快速增长而导致的日益严重的数据饥饿问题。事实上,在SimMIM的帮助下,我们成功地使用∼比谷歌JFT-3B数据集的数据小40倍,并在几个有代表性的基准上创造了新的记录:ImageNet-V2分类[40]的最高准确率为84.0%,COCO物体检测[6,29]的最高准确率为63.1/54.4,ADE20K语义分割[49,60]的最高准确率为59.9百万,Kinetics-400动作识别的最高准确率为86.8%[26, 33].
近年来,我们看到NLP和计算机视觉在基本建模和学习算法以及多模式应用中的重叠越来越多,这与人脑如何工作以获得一般智能能力非常吻合,我们希望我们的“屏蔽信号建模”演示在计算机视觉中,可以进一步推动这一趋势,并鼓励不同人工智能领域进行更深入的互动。
2.相关工作
屏蔽语言建模(MLM)
屏蔽语言建模[12,30]及其自回归变体[2]是自然语言处理(NLP)领域中占主导地位的自监督学习方法.给定一个句子或句子对/三元组中的可见标记,这些方法通过预测输入的不可见标记来学习表示法。这一系列方法从大约3年前开始重新绘制该字段[12],它支持学习非常大的语言模型,并通过利用大量数据很好地概括了广泛的语言理解和生成任务。
屏蔽图像建模(MIM)
屏蔽图像建模[7,13,21,36,45]与NLP中的MLM任务并行进行,但长期处于非主流位置。上下文编码器方法[36]是这一方向的先驱工作,它屏蔽原始图像的矩形区域,并预测丢失的像素。CPC[21,45]通过对比预测编码丢失的每批量中的验证任务预测补丁。最近,iGPT[7]、ViT[15]和BEiT[1]在现代视觉transformer上回忆起这种学习方法,并通过在某些组件上引入特殊设计(如像素聚类[7]),在表示学习方面显示出强大的潜力,预测平均颜色[15],并通过附加的dVAE网络和分块屏蔽策略进行tokenization[1]。与这些复杂的设计相反,我们提出了一个非常简单的框架SimMIM,它显示了类似甚至稍好的效果。
基于重建的方法也与我们的方法相关,特别是自动编码器方法[22,28,35,39,46,47]。与我们的方法类似,他们采用重建任务来恢复原始信号。但是,他们基于不同的可见信号重建理念,而不是像我们的方法中那样创建或预测不可见信号。因此,他们通过研究如何有效地规定通过适当的规则化或架构瓶颈进行任务学习。
图像修复方法除了表示学习之外,屏蔽图像建模是一个经典的计算机视觉问题,称为图像修复。这个问题在计算机视觉中已经被广泛研究了很长时间[37,52,53],旨在提高修复质量,不需要连接到自监督表示学习。虽然我们提倡将图像修复作为一项强大的自监督预任务任务,但我们也发现,更强的修复能力并不一定会导致下游任务上更强的微调性能。
压缩感知
本文中的方法也与压缩感知相关[14],它确认了我们获取的大多数数据(包括图像信号)可以在几乎没有感知损失的情况下丢弃。最近的稀疏推理工作[19]也部分支持了这种说法,即在抛出大量图像特征后,识别精度几乎没有下降[23,41,51]。本文还发现,通过屏蔽图像的很大一部分。本文中的观察进一步针对输入信号,即使用极少量随机选择的输入图像块作为输入,即10%,仍然可以学习修复任务以产生良好的视觉表现。
其他自监督学习方法
在过去二十年中,有许多借口任务以自监督的方式学习视觉表现:灰度图像着色[57],拼图解决[34],分裂大脑自动编码[58],旋转预测[17],学习聚类[4]。尽管与屏蔽图像建模非常不同,但其中一些有趣的是也遵循预测信号不可见部分的原理,例如,[57,58]使用一个或两个颜色通道作为输入来预测其他通道的值。另一个很大一部分工作是对比学习方法[3,8,16,18,20,48,50],这是以前的主流。我们希望我们的工作能够鼓励将屏蔽语言建模作为自监督视觉表征学习的借口任务的研究。
3.方法
3.1. 一种掩模图像建模框架
我们的方法SimMIM通过屏蔽图像建模学习表示,屏蔽图像建模将一部分输入图像信号屏蔽,并在屏蔽区域预测原始信号。该框架由4个主要部分组成:
1) 屏蔽策略。给定输入图像,该组件设计如何选择要屏蔽的区域,以及如何实现选定区域的屏蔽。屏蔽后的变换图像将用作输入。
2) 编码器架构。它提取出一个隐藏的特征表示,然后用于预测隐藏区域的原始信号。学习的编码器预计可用于各种视觉任务。在本文中,我们主要考虑两种典型的视觉Transformer架构:vanilla VIT〔15〕和Swin Transformer〔32〕。
3) 预测头。预测头将应用于潜在特征表示,以在屏蔽区域产生一种形式的原始信号。
4) 预测目标。该组件定义了要预测的原始信号的形式。它可以是原始像素值,也可以是原始像素的变换。该部分还定义了损失类型,典型选项包括交叉熵分类损失和“1”或“2”回归损失。
在以下小节中,我们将介绍每个组件的典型选项。然后对这些方案进行系统研究。通过结合每个组件的简单设计,我们已经能够实现强大的表征学习性能。
3.2. 屏蔽策略
对于屏蔽区域的输入转换,我们遵循NLP社区[12,30]和BEiT[1],使用可学习的屏蔽标记向量替换每个屏蔽patch。嵌入patch后,将标记向量维度设置为与其他可见patch表示相同的维度。对于屏蔽区域选择,我们研究以下屏蔽策略(如图2所示):
patch对齐随机掩模
我们首先提出了一种patch对齐的随机屏蔽策略。图像块是视觉transformer的基本处理单元,在完全可见或完全屏蔽的块级别上操作屏蔽非常方便。对于Swin Transformer,我们考虑不同分辨率级的等效patch尺寸,4×4。∼32×32,默认采用32×32,为最后一级补丁大小。对于ViT,我们采用32×32作为默认屏蔽patch大小。
其他屏蔽策略
在以前的工作中,我们还尝试了其他屏蔽策略:1)[36]引入了中心区域屏蔽策略。我们将其放松,使其在图像上随机移动。2) [1]介绍了一种复杂的分块屏蔽策略。我们在16×16和32×32两种屏蔽patch尺寸上尝试这种屏蔽策略。
3.3. 预测头
预测头可以是任意形式和容量的,只要其输入与编码器输出一致,并且其输出实现预测目标。一些早期的工作遵循自动编码器,采用重型预测头(解码器)[36]。在本文中,我们展示了预测头可以做得非常轻,像线性层一样轻。我们还尝试使用较重的头部,如2层MLP、反向Swin-T和反向Swin-B。
3.4. 预测目标
原始像素值回归
像素值在颜色空间中是连续的。一个直接的选择是通过回归预测屏蔽区域的原始像素。一般来说,vision架构通常会生成降采样分辨率的特征图,例如,ViT为16倍,大多数其他架构为32倍。为了在输入图像的全分辨率下预测所有像素值,我们将特征映射中的每个特征向量映射回原始分辨率,并让该向量负责相应原始像素的预测。
例如,在由SwinTransformer编码器生成的32×下采样特征图上,我们应用输出维度为3072=32×32×3的1×1卷积(线性)层来表示32×32像素的RGB值。我们还通过对原始图像进行了32×16×8×4×2××的下采样。对屏蔽像素采用“1损失”:
其中x,y∈ r3hw×1分别为输入RGB值和预测值;M表示屏蔽像素的集合;Ω(·)是元素的数量。在实验中,我们也考虑了“2和平滑”1的损失,其性能同样良好,默认情况下采用了1的损失。
其他预测目标
以往的方法大多是将被屏蔽的信号转换成簇或类,然后对被屏蔽的图像进行分类预测。
•颜色聚类。
在iGPT[7]中,使用大量自然图像,通过k均值将RGB值分组为512个簇。然后将每个像素指定给最近的簇中心。这种方法需要额外的聚类步骤来生成9位调色板。在我们的实验中,我们使用了在iGPT中学习到的512个聚类中心。
•视觉tokenization。
在BEiT[1]中,使用离散VAE(dVAE)网络[38]将图像块转换为dVAE标记。token标识用作分类目标。在这种方法中,需要预训练额外的dVAE网络。
•通道方向的箱子颜色离散化。R、G、B通道分别分类,每个通道离散为相等的箱,例如,实验中使用的8个箱和256个箱。
3.5. 评估协议
我们遵循[1]主要通过对ImageNet-1K图像分类进行微调来评估学习表示的质量,这在实践中是一个更有用的场景。我们将在烧蚀中主要说明这一指标。在系统级比较中,我们还遵循以前的工作[1,3,7,8,18,20],报告了以前线性探测的主要指标的性能。然而,我们不会考虑这种线性探测指标,因为我们的主要目标是学习能够很好地补充以下下游任务的表示。
4.实验
4.1. 烧蚀研究
4.1.1设置
在我们的消融研究中,我们采用Swin-B[32]作为默认主干。为了减少实验开销,我们使用默认的输入图像大小1922,并将窗口大小调整为6以适应更改的输入图像大小。ImageNet-1K图像分类数据集用于预训练和微调。
在自监督的预训练中,我们使用了带有余弦学习率调度器的AdamW优化器[27],并训练了100个epoch。训练超参数为:批量大小为2048,基本学习率为8e-4,重量衰减为0.05,β1=0.9,β2=0.999,10个阶段的预热。使用轻数据增强策略:随机调整裁剪大小,扩展范围为[0.67,1],纵横比范围为[3/4,4/3],然后进行随机翻转和颜色规格化步骤。
SimMIM组件的默认选项为:随机屏蔽策略,patch大小为32×32,屏蔽比为0.6;目标图像大小为1922的线性预测头;屏蔽像素预测的`1损失。我们通过改变一个选项并保持其他设置与默认设置相同来进行消融。在微调中,我们还使用了AdamW优化器、100个epoch训练和具有10个epoch预热的余弦学习速率调度器。微调超参数为:批量大小为2048,基本学习率为5e-3,权重衰减为0.05,β1=0.9,β2=0.999,随机深度[24]比为0.1,分层学习率衰减为0.9。我们遵循[1]中使用的相同数据扩充,包括RandAug[10]、Mixup[56]、Cutmix[54]、标签平滑[43]和随机擦除[59]。
4.1.2屏蔽策略
我们首先研究不同的屏蔽策略如何影响表征学习的有效性。表1总结了多种屏蔽比下不同方法的微调精度。
我们首先注意到,我们的简单随机屏蔽策略的最佳精度达到83.0%,比其他更特殊设计的策略(如[1]中的块屏蔽)的最佳精度高出+0.3%。
此外,当采用32的大屏蔽patch尺寸时,该简单策略在广泛的屏蔽率(10%-70%)范围内表现稳定良好。我们假设一个大的屏蔽patch的中心像素可能距离可见像素足够远。因此,它强制网络学习相对长距离的连接,即使在使用低屏蔽率(例如10%)或周围的所有补丁未被屏蔽时也是如此。增加预测距离的另一种方法是使用更大的屏蔽率,这也显示了相对较小的patch尺寸有利于微调性能。当patch大小为4、8和16时,通过将屏蔽比从0.4增加到0.8,准确度分别平滑地提高+0.2%(从81.9%提高到82.1%)、+0.4%(从82.0%提高到82.4%)和+0.4%(从82.4%提高到82.8%)。尽管如此,这些较小patch的总体精度不如较大patch大小32时的精度高。可能由于预测距离太大,进一步将patch大小增加到64会导致精度降低。
新提出的AvgDist度量也能很好地反映上述观察和分析结果,该度量度量屏蔽像素到最近可见像素的平均欧氏距离。图3(a)显示了不同屏蔽策略w.r.t.不同屏蔽率的AvgDist。从这个图中,我们观察到所有屏蔽策略的AvgDist随着屏蔽率的增加而平稳增加。对于随机屏蔽策略,当屏蔽的patch大小较低(例如4或8)时,AvgDist相对较低,并且随着屏蔽率的增加而缓慢增长。另一方面,当补丁大小较大(例如64)时,非常小的屏蔽率(例如10%)仍然使AvgDist相对较大。平方法和分块法产生与patch大小64类似的高AvgDist值。
图3(b)描绘了微调精度与AvgDist测量之间的关系,AvgDist测量遵循脊形。高微调精度的条目大致分布在AvgDist的[10,20]范围内,而AvgDist较小或较高的条目表现较差。这表明,屏蔽图像建模中的预测距离应适中,既不太大也不太小。可能,屏蔽预测中的小距离可能会让网络学习太多的短连接,而大距离可能太难学习。这些结果也表明AvgDist可能是屏蔽图像建模有效性的一个良好指标。
在我们的实验中,由于其稳定的性能,我们在默认情况下对32个patch大小采用0.6的屏蔽比。还要注意的是,语言领域中的屏蔽策略和屏蔽率与我们工作中探索的非常不同,我们的工作通常采用15%的小屏蔽率。我们假设两种模式的不同程度的信息冗余可能导致不同的行为。
4.1.3预测头
表2说明了不同预测头的影响,包括线性层、2层MLP、反向Swin-T和反向Swin-B。虽然通常较重的预测头产生的损失稍低,例如,0.3722(反向Swin-B)与0.3743(线性层),但下游ImageNet-1K任务的迁移性能较低。这表明更强的修复能力并不一定会导致更好的下游性能。这可能是因为在预测头中大量浪费了容量,而预测头不会用于下游任务。还有一个实际缺点,即预测头越重,训练成本越高,例如,使用反向Swin-B的训练成本是线性层的2.3倍。
还要注意的是,在先前的对比学习方法[8,18,20]中,通常在预任务任务中使用多层MLP头,而不是线性层,这使得编码器产生的潜在特征与预任务目标保持适度的距离,并显示出有利于线性探测评估指标。在我们的工作中,我们表明,在我们的方法中,一个线性层头在一个微调指标下,已经显示出竞争性,甚至是最佳的迁移性能。这表明,如果我们的目标是学习良好的特征进行微调,那么对比学习方法中对头部设计的重要探索可能不需要用于屏蔽图像建模。
4.1.4预测分辨率
表3说明了不同目标分辨率的影响。它表明,大范围的分辨率(例如,122-1922)表现同样好。迁移性能仅在6 2的低分辨率下下降,可能是因为此选项丢弃了太多信息。这些结果暗示了下游图像分类任务所需的信息粒度。我们将在未来的研究中探讨对其他更细粒度的下游任务(如对象检测或语义分割)的影响。
请注意,在我们的实验中,我们采用了默认的目标分辨率1922,这是由于同样最佳的迁移精度和可忽略的计算开销。
4.1.5预测目标
表5比较了不同预测目标的效果。可以得出以下几个观察结果:
•三个损失`1,smooth-`1和`2表现同样出色;
•通过颜色聚类[7]或tokenization[1]仔细定义的类的性能比我们的稍差;
•一种简单的颜色离散化方法,通过通道等尺寸箱子(建议作为替代方案)与“1损失”相比具有竞争力,但需要仔细调整箱子编号(例如,8箱)。
这表明,不需要将屏蔽图像建模的目标与基于屏蔽语言建模的相同分类对齐。将这种方法与视觉信号本身的性质相结合是很好的。
预测还是重建?
虽然自动编码器和屏蔽图像建模方法都是通过恢复原始信号来学习网络,但它们建立在可见信号重建和不可见信号预测的不同原理之上。在我们的框架中,我们还可以通过回归输入中可见patch的原始像素值来实例化重建任务。
表4比较了默认设置中仅预测屏蔽区域的方法和恢复屏蔽和未屏蔽区域的替代方法。预测屏蔽区域的方法的性能明显优于恢复所有图像像素的方法,分别为82.8%和81.7%。这意味着这两个任务在其内部机制上有着根本性的不同,预测任务可能是一种更有前途的表征学习方法。
4.2. 与以往ViT-B方法的比较
由于之前的工作[1,5]对ViT架构进行了实验,为了公平比较,我们还使用ViT-B架构进行了实验。
在预训练中,采用了800个epoch,带有余弦学习速率调度器和20个epoch线性预热程序。所有其他超参数严格遵循消融研究中相同的设置,除了我们使用2242输入分辨率与之前方法中相同。在微调中,我们采用[1]之后的分层学习率衰减为0.65,并保持所有其他设置与我们的消融研究中的设置完全相同。在线性探测中,我们按照[1]选择产生最佳线性探测精度的ViT-B中间层。采用100个epoch的训练和5个epoch的线性预热步骤。
表6将我们的方法与以前的方法在微调和使用ViTB的线性探测两个指标上进行了比较。我们的方法通过微调实现了83.8%的top-1精度,比以前的最佳方法高出+0.6%[1]。还请注意,由于其简单性,我们的方法比其他方法保留了最高的训练效率,即2.0×、1.8×,∼与DINO[5]、MoCo v3[9]、ViT[15]和BEiT[1](不计算dVAE预训练时间)相比,效率分别提高了4.0倍和1.5倍。
虽然我们的主要重点是学习更适合微调的表示法,但我们也报告了不同方法的线性探测精度,以供参考。
4.3. Swin Transformer的定标实验
我们采用不同型号尺寸的Swin Transformer进行实验,包括Swin-B、Swin-L、SwinV2-H和SwinV2-G[31]。为了减少实验开销,我们在预训练中采用了较小的图像大小1922,并采用了步长学习率调度器,使得不同训练长度的实验可以重用第一步的模型训练。第一个学习速率步骤的基本学习速率设置为4e-4,持续时间为总训练周期的7/8。剩下的时间段,学习率除以10。对于H和G的模型尺寸,我们使用[31]中介绍的变体,其稳定性比原始版本更强。所有模型都使用ImageNet-1K数据集进行训练,但SwinV2-G使用更大且私人收集的ImageNet-22K-ext数据集除外,详见[31]。当使用ImageNet-1K进行预训练时,所有模型都经过800个epoch的训练,大多数其他超参数在烧蚀中紧随其后。在微调中,采用2242的较大图像尺寸。对于SWVI2-H,我们还考虑更大的分辨率为5122。微调的训练长度设置为100个epoch,但SwinV2-H除外,其中使用50个epoch。对于Swin-B、Swin-L和SwinV2-H,分层学习速率衰减分别设置为0.8、0.75和0.7。其他微调的超参数与消融中的相同。
表7列出了我们的方法在不同模型尺寸下的结果,与监督的结果进行了比较。通过SimMIM预训练,所有的Swin-B、Swin-L和SwinV2-H都比他们的监督对手获得了更高的准确性。此外,分辨率更高(5122)的SwinV2-H模型在ImageNet-1K上实现了87.1%的top-1精度,这是仅使用ImageNet-1K数据的方法中数量最多的方法。
虽然之前的所有十亿级视觉模型都依赖于谷歌的JFT-3B数据集进行模型训练[11,42,55],但拟议的SimMIM方法用于通过使用∼比JFT-3B的数据小40倍。它在四个具有代表性的视觉基准上实现了强大的性能:ImageNet-V2分类的84.0%top-1准确率[40]、COCO目标检测的63.1/54.4方框/屏蔽图[6,29]、ADE20K语义分割的59.9mIoU[49,60]、以及Dynamics-400动作识别的86.8%top-1 acc[26,33]。更多详情见[31]。
4.4. 可视化
在本节中,我们试图通过可视化来理解提议的方法以及一些关键的设计。所有样本图像均来自ImageNet-1K验证集。
学习什么能力?
图4显示了使用几个人类设计的屏蔽恢复的图像,以了解通过屏蔽图像建模学习的能力。人类设计的屏蔽(从左到右)分别由随机屏蔽、移除主要物体大部分部分的屏蔽和移除所有主要物体的屏蔽组成。我们可以得出以下观察结果:1)通过随机屏蔽主要物体的中等部位,可以很好地恢复屏蔽部位的形状和纹理,如企鹅、山、帆船和人所示。在未屏蔽区域,由于训练期间未学习恢复未屏蔽区域,因此存在严重的棋盘伪影;2) 通过掩盖主要物体的大部分(大于90%),该模型仍然可以通过可忽略的线索预测物体的存在;3) 当对象完全屏蔽时,屏蔽区域将用背景纹理修复。
这些观察结果表明,该方法学习了对象的强大推理能力,而这种能力不是由于记忆图像身份或简单地复制附近的像素。
预测与重建
我们在表4中展示了通过屏蔽预测任务(我们的方法)和联合屏蔽预测和可见信号重建任务学习的表示的比较,这表明纯屏蔽预测任务的表现明显更好。图5比较了两种方法的恢复效果。结果表明,后一种方法更美观,但是,在恢复未屏蔽区域时可能浪费了模型容量,这对于微调可能没有多大用处。
屏蔽patch大小的影响
图6显示了在固定屏蔽率为0.6的情况下,具有不同屏蔽patch大小的图像的恢复。可以看出,当屏蔽patch的大小较小时,细节可以更好地恢复,但是,学习到的表示迁移更差。也许,对于较小的patch大小,可以通过接近像素或纹理轻松完成预测任务。
5.结论
本文提出了一个简单而有效的自监督学习框架SimMIM,利用屏蔽图像建模进行表征学习。该框架尽可能简单:1)具有中等大小屏蔽patch的随机屏蔽策略;2) 通过直接回归任务预测RGB值的原始像素;3) 预测头可以像线性层一样轻。我们希望我们强大的成果以及简单的框架能够促进这一领域的未来研究,并鼓励人工智能领域之间的深入互动。