变换器鲁棒性-2：On the Adversarial Robustness of Vision Transformers

https://arxiv.org/abs/2103.15670v2

随着自然语言处理和理解的成功推进，Transformers有望给计算机视觉带来革命性的变化。这项工作首次全面研究了视觉Transformers（VIT）对对抗性干扰的鲁棒性。在各种白盒和迁移攻击设置下进行测试，我们发现ViTs与卷积神经网络（CNN）相比具有更好的对抗鲁棒性。这一观察结果也适用于certified robustness。我们总结了以下有助于提高ViTs鲁棒性的主要观察结果：

1） VIT学习到的特征包含较少的低级信息，更具普遍性，这有助于增强对抗性干扰的鲁棒性。

2）引入卷积或tokens-to-token blocks以学习ViTs中的低级特征可以提高分类精度，但代价是对抗性鲁棒性。

3）增加模型结构中Transformers的比例（当模型由Transformers和CNN块组成时）可提高鲁棒性。但对于纯Transformers模型，简单地增加尺寸或添加层并不能保证类似的效果。

4）在较大数据集上进行预训练不会显著提高对抗鲁棒性，尽管这对于训练VIT至关重要。

5）对抗性训练也适用于ViT，用于训练健壮的模型。

此外，还进行了特征可视化和频率分析。结果表明，与CNN相比，VIT对高频扰动的敏感性较低，并且模型对低层特征的学习程度与其对不同频率扰动的鲁棒性之间存在高度相关性。

1导言

Transformer最初作为一种主要基于自注意机制的深层神经网络（DNN）应用于自然语言处理（NLP）任务中（Vaswani et al.（2017）；Devlin et al.（2018）；Brown et al.（2020）），具有大规模预训练的Transformer在许多NLP任务中取得了最新成果（Devlin et al.（2018）；Liu et al.（2019）；Yang et al.（2019）；Sun et al.（2019））。最近，Dosovitskiy et al.（2020）将纯Transformers直接应用于图像块序列（即视觉Transformers，ViT），并表明在图像分类任务上，Transformers本身可以与卷积神经网络（CNN）竞争。自那时起，Transformers已扩展到各种视觉任务，并显示出与CNN和递归神经网络（RNN）相比具有竞争力甚至更好的性能（Carion et al.（2020）；Chen et al.（2020）；Zhu et al.（2020））。虽然ViT及其变体有望实现适用于不同数据模式的统一机器学习范式和架构，但ViT对对抗性干扰的鲁棒性尚不清楚，这对于安全可靠地部署许多实际应用程序至关重要。

图1：（a）稳健精度vs.清洁精度。鲁棒精度通过AutoAttack（Croce&Hein（2020））进行评估。“混合”类包括介绍的CNN ViT、T2T ViT和Swin-T，在第3节介绍。有注意机制的模型的名字印在圆圈中央。VIT对对抗性干扰具有最好的鲁棒性。在ViT中引入其他模块可以提高清洁精度，但会损害对手的鲁棒性。CNN更容易受到对抗攻击。（b）本文研究了视觉变换器和CNN。

在这项工作中，我们对VIT在图像分类任务中的对抗鲁棒性进行了首次研究，并与CNN基线进行了比较。如图1（a）所示，我们的实验结果表明，无论是在白盒攻击还是黑盒攻击环境下，ViTs的鲁棒性都优于CNN，基于此，我们得出了以下重要发现：

• VIT学习到的功能包含较少的低级信息，有利于对抗鲁棒性。VIT的攻击成功率（ASR）较低，为51.9%，而图1（a）中CNN的攻击成功率最低为83.3%。VIT对高频对抗干扰的敏感性也较低。

• 使用去噪随机平滑（Salman et al.，2020），VIT比CNN获得更好的认证稳健性。

• 如图1（a）所示，通过引入模块帮助学习低级特征，VIT的分类精度可以提高，代价是对抗稳健性降低。

• 当模型同时包含transformer和CNN块时，增加模型中transformer块的比例可以提高鲁棒性。例如，当向T2T-ViT-14中添加10个额外的Transformers组时，攻击成功率（ASR）从87.1%降至79.2%。然而，增加纯Transformers模型的尺寸不能保证类似的效果，例如，图1（a）中ViT-S/16的稳健性优于ViT-B/16。

• 在较大数据集上进行预训练不会提高对抗鲁棒性，尽管这对于训练ViT至关重要。

• 通过最小-最大优化(min-max optimization)进行对抗性训练的原则（Madry et al.（2017）；Zhang et al.（2019））可用于训练强健的VIT。

2 相关工作

Transformer（Vaswani et al.（2017））在许多NLP任务中取得了显著的性能，并且在这些NLP任务中对其鲁棒性进行了研究。谢等（2019）；金等（2020）；施和黄（2020）；李等人（2020年）；加格和罗摩克里希南（2020年）；尹等人（2020年）对Transformers进行了对抗性攻击，包括预训练的模型，在他们的实验中，Transformers通常比其他基于长短时记忆（LSTM）或CNN的模型表现出更好的鲁棒性，谢等人（2019年）提供了理论解释。然而，由于NLP模型的离散性，这些研究集中于离散扰动（例如，单词或字符替换），这与计算机视觉任务中的小扰动和连续扰动非常不同。此外，Wang et al.（2020a）从信息论的角度改进了预训练Transformers的鲁棒性，Shi et al.（2020）；叶等人（2020年）；Xu等人（2020年）研究了基于Transformers的模型的鲁棒性认证。据我们所知，这项工作是第一项研究Transformers对计算机视觉任务的对抗性鲁棒性（针对输入像素空间中的小扰动）。

在计算机视觉的背景下，最相关的工作是Alamri等人（2020年），他们将transformer编码器应用于目标检测任务，并报告了更好的对抗鲁棒性。但是他们考虑的模型是CNN和transformer的混合，而不是本文考虑的ViT模型。此外，他们采用的攻击相对较弱，并且缺乏对Transformers带来的对抗性鲁棒性好处的研究和解释。

3 模型架构

我们首先回顾了在我们的实验中研究的模型结构，包括几个视觉Transformers（VIT）和CNN模型。表5给出了详细的比较表。

3.1 视觉Transformers

我们考虑原始VIT（DOSOOVITKYY等人（2020））及其四个变体，如图1（b）所示。

视觉Transformers（ViT）和数据高效图像Transformers（DeiT）：

ViT（Dosovitskiy et al.（2020））在语言任务上主要遵循Transformers的原始设计（Vaswani et al.（2017）；Devlin et al.（2018））。对于二维图像 $x∈ R^{H×W×C}$ 具有分辨率H×W和C通道，被划分为长度为 $N=\frac{HW}{P^2}$ 的图块序列，分辨率为 $P\times P$ 的二维图块被展平，这样， $x\in R^{N\times (P^2 \cdot C)}$ （原文似乎有笔误）。首先用一个简单的卷积层将图块编码成图块嵌入，其中卷积的核大小和步长恰好为P×P。此外，还存在位置嵌入以保留位置信息。类似于BERT（Devlin et al.（2018）），BERT是NLP的大规模预训练模型，一个特殊的[CLS]标记被添加到分类的输出特征中。DeiT（Touvron et al.（2021））使用CNN教师提供的数据增强或蒸馏以及额外的蒸馏token，进一步提高了ViT的性能。我们研究了ViT-{S，B，L}/16，DeiT-S/16和Dist-DeiT-B/16，定义见正文中的相应文件，并在附录F中讨论了其他结构。

CNN和ViT的混合（CNN-ViT）：

Dosovitskiy等人（2020年）还提出了一种VIT混合架构，将原始图像块替换为从CNN特征图中提取的块。这相当于将学习到的CNN块添加到ViT的头部，如图1（b）所示。继Dosovitskiy等人（2020年）之后，我们在实验中研究了ViT-B/16 Res，其中输入序列是通过将ResNet50中特征映射的空间维度展平获得的。

T2T和ViT的混合（T2T-ViT）：

Yuan et al.（2021）提出通过使用token-to-token（T2T）模块逐步将图像结构化为token，从而克服VIT中简单token化的局限性，该模块递归地将相邻token聚合为一个token，以便更好地学习低级结构。在中等规模数据集上从头开始训练时，T2T ViT的表现优于ViT。我们在实验中研究了T2T-ViT-14和T2T-ViT-24。

移动窗口和ViT（Swin-T）的混合：

Liu等人（2021年）使用移位窗口方案计算表示，该方案将自注意计算限制在非重叠局部窗口上，同时允许跨窗口连接，从而提高了效率。我们在正文中研究了Swin-S/4，并在附录F中讨论了其他结构。

3.2 卷积神经网络

我们研究了几种CNN模型进行比较，包括ResNet18（He et al.（2016））、ResNet50-32x4d（He et al.（2016））、ShuffleNet（Zhang et al.（2018））、MobileNet（Howard et al.（2017））和VGG16（Simonyan&Zisserman（2014））。我们还考虑SEResNet50模型，它使用挤压和激励（SE）块（胡等人）（2018），它在通道维度执行注意力，以在每个层内的局部感受野中融合空间和信道信息。

上述CNN都是从头开始在ImageNet上进行训练的。为了更好地与预训练的Transformers进行比较，我们还考虑了两个CNN模型在较大的数据集上预训练：在YFCC100M数据集（THOMEE等人（2015））上预训练的ReXeXT-32 x4d ssl，在IG-1B-Targeted (Mahajan et al. (2018))上用半监督-弱监督预训练的ResNet50-swsl。它们都在ImageNet上进行了微调。

4 对抗性稳健性评估方法

我们考虑常用的 $l_∞$ 范数有界(bounded)对抗攻击，以评估目标模型鲁棒性。一个 $l_∞$ 攻击通常表示为解决约束优化问题：

其中 $x_0$ 是一个带有标签 $y$ 的干净样本，我们的目标是在以 $x_0$ 为中心、以 $\epsilon$ 为半径的 $l_∞$ 球上，找到对抗样本 $x^{adv}$ ，使得分类损失 $L(x^{adv} ,y)$ 最大。本文考虑无目标攻击，如果扰动成功地改变了模型的预测，则攻击是成功的。下面列出了本文中使用的攻击以及随机平滑方法。

白盒攻击

我们的实验中涉及四次白盒攻击。投影梯度下降（Projected Gradient Decent，PGD）攻击（Madry et al.（2017））通过迭代采用梯度上升来解决等式1：

其中 $x_{t}^{adv}$ 代表 $t$ 次迭代后的解， ${Clip}_{x_0,\epsilon } (\cdot )$ 表示剪裁值，使每个 $x_{t+1}^{adv}$ 落在 $[x_{0,i} -\epsilon ,x_{0,i} +\epsilon]$ 范围内，根据 $l_∞$ 威胁模型。作为特例，快速梯度符号法（Fast Gradient Sign Method，FGSM）（Goodfello等人（2014））使用t=1的单次迭代。自动攻击（Croce&Hein，2020）是目前最强大的白盒攻击，它通过各种攻击的无参数集成来评估对手的鲁棒性。我们还设计了一种基于频率的攻击进行分析，它在额外的频率约束下进行攻击：

其中，DCT和IDCT分别表示离散余弦变换和逆离散余弦变换， $x_{pgd}^{adv}$ 表示PGD生成的对抗性样本， $M_f$ 表示附录B中所示频率滤波器定义的掩码度量。我们发现该设计类似于Wang等人（2020b）。

黑盒攻击

我们考虑迁移攻击，研究攻击源模型(source model)所产生的对抗扰动是否能成功地欺骗目标模型(target model)。该测试不仅评估了黑盒设置下模型的稳健性，还成为检测模糊梯度现象的鲁棒性检查（Athalye et al.（2018））。先前的研究表明，类似FGSM的单步攻击比多步攻击具有更好的可迁移性（Kurakin等人（2017））。因此，我们在实验中使用FGSM进行迁移攻击。

去噪随机平滑

我们还使用随机平滑评估模型的认证鲁棒性，其中鲁棒性评估为确信半径(certifified radius)，并且该模型在半径内扰动的高概率下被认证为鲁棒性。我们遵循Salman et al.（2020）为每个预训练的模型 $f$ 训练一个DnCNN（Zhang et al.（2017））去噪器 $D_θ$ ，使用“稳定性”目标，LCE表示交叉熵，N表示高斯分布：

对去噪后的分类器 $f\circ D_{\theta }$ 进行随机平滑， for robustness certifification：

然后，计算平滑分类器的认证半径为（Cohen等人，2019）：

其中 ${\Phi }^{-1}$ 是标准高斯CDF的倒数， $p_A=P(f(x+δ)=c_A)$ 是top-1预测类别 $c_A$ 的置信度， $p_B={max}_{c\neq c_{A} } P(f(x+δ)=c_A)$ 是第二个预测类别的置信度。因此，给定扰动半径，可通过将给定半径与认证半径（certifified radius） $R$ 进行比较来评估该扰动半径下的认证精度。

5 实验结果

在实验中，我们证明了ViTs比CNN对白盒攻击和迁移攻击都具有更好的鲁棒性。我们还使用去噪随机平滑技术研究了它们的鲁棒性，并在ViT上进行了初步的对抗性训练实验。在实验的基础上，我们分析了ViTs在 different lens下的抗干扰能力。

对于所有实验，我们分别从PyTorch图像模型库（timm，Wightman（2019））和torchvision（Paszke et al.（2019））加载预训练的ViT模型和CNN。我们在ImageNet-1k（Deng等人（2009））的整个测试集上评估了每个模型的清洁精度，并抽样1000个测试示例来评估鲁棒精度和攻击成功率（ASR）。请注意，较低的ASR意味着更好的鲁棒性。关于CIFAR-10的实验结果见附录E。对于对抗性训练，我们使用CIFAR-10（Krizhevsky等人（2009）），详见第5.4节。

5.1白盒攻击下的鲁棒性

设置

我们使用PGD和自动攻击来研究白盒攻击下的鲁棒性。我们从{0.001，0.003，0.005，0.01 }考虑攻击半径 $\epsilon$ 。对于PGD攻击，我们将攻击步骤固定为 $n_{iter}$ =40，其他参数遵循Foolbox中实现的默认设置（Rauber et al.（2020））。自动攻击不需要任何超参数调整。

结果

我们在表1中给出了使用PGD攻击的结果，在表2中给出了使用自动攻击的结果。当 $\epsilon$ 较大时，例如当 $\epsilon$ =0.01时，所有型号的ASR约为100%。但对于较小的攻击半径，ViT模型在PGD攻击和自动攻击下的ASR均低于CNN。例如，当 $\epsilon$ =0.001时，ViT-S/16的ASR仅为44.6%，而CNN的ASR至少为70.0%。在相同的攻击半径下，ViTS/16的自动攻击ASR仅为51.9%，而ShuffleNet为93.9%。此外，结果表明，在相同的 $\epsilon$ ，AutoAttack的攻击强度远大于PGD。这些结果表明，在这些白盒攻击下，ViT比CNN更具鲁棒性。我们还在图1（a）中可视化了这些模型的干净/鲁棒精度权衡和模型大小。

5.2 迁移攻击下的鲁棒性

我们还进行迁移攻击，以测试第4节所述的黑盒设置中的对抗鲁棒性。我们考虑攻击 $l_∞$ 范数扰动不大于0.1，结果如图2所示。当VIT用作目标模型，CNN用作源模型时，如每个子图左下方所示，迁移攻击的ASR相当低。另一方面，当VIT是源模型时，它们生成的对抗性示例在迁移到其他目标模型时具有更高的ASR。因此，前三行和后七列比其他行暗。此外，对于图中FGSM实际在白盒设置下攻击模型的对角线，我们可以观察到，与CNN相比，VIT对较小半径的攻击不太敏感，T2T模块使VIT对这种一步攻击更为鲁棒。此外，对抗性样本在具有类似结构的模型之间迁移良好。由于ViT-S/16、ViT-B/16和ViT-L/16具有相似的结构，因此它们生成的对抗性示例可以很好地相互传递，T2T ViT和CNN分别具有相似性。

5.3 认证的稳健性

设置

我们使用稳定性目标对去噪器进行了25个阶段的训练，噪声水平σ=0.25，学习率为10−5，批量大小为64。我们迭代通过ImageNet数据集，根据公式6计算相应半径，并在图3中报告Salman等人（2020）定义的不同半径的认证精度。

结果

如图3所示，ViT-S/16比ResNet18具有更高的认证精度，表明视觉Transformers比CNN具有更好的认证鲁棒性。我们还发现，在相同的设置下，为ResNet18训练高斯去噪器比为ViT-S/16训练高斯去噪器更困难。在σ=0.25的噪声下，带去噪器的ViT-S/16的精度为64.84%（4.996%，无任何去噪器），而在相同噪声下带去噪器的ResNet18的精度为47.782%（5.966%，无任何去噪器）。

5.4 对抗性训练

设置

我们还对ViT对抗性训练进行了初步实验。在本实验中，我们使用e=8/255的CIFAR-10（Krizhevsky et al.（2009））和ViT-B/16模型。由于最初该ViT是在ImageNet上预训练的，图像大小为224×224，图块大小为16×16，而CIFAR-10上的图像大小为32×32，因此我们将图块嵌入的权重减少采样，并将图块大小调整为4×4，因此仍然有8×8个图块，我们将新模型命名为ViT-B/4。虽然ViT最初在CIFAR-10上放大了输入图像，以便进行自然微调和评估，但我们将输入大小保持为32×32，以使攻击半径具有可比性。对于训练，我们分别使用PGD-7（7次迭代的PGD）（Madry et al.（2017））和TRADES（Zhang et al.（2019））方法，对抗性训练期间无额外数据。我们将ViT与两个CNN（ResNet18（He et al.（2016））和WideResNet-34-10（Zagoruyko和Komodakis（2016））进行比较。为了节省训练成本，我们只对每个模型进行20个epoch的训练，尽管之前的一些工作使用了数百个epoch（Madry et al.（2017）；Pang et al.（2020）），并且对于大型模型来说成本非常高。我们使用批量大小为128、初始学习率为0.1、动量为0.9的SGD优化器，学习率在15个阶段和18个阶段后分别以0.1的速度衰减。而我们使用的是5×10的权重衰减−4对于Pang等人（2020）提出的CNN，5×10−4优于2×10−4，我们仍然使用2×10−ViT为4，我们发现为5×10−4导致ViT安装不充分。我们分别使用PGD-10（10次迭代的PGD）和自动攻击对模型进行评估。

结果

我们在表3中显示了结果。ViT模型与ResNet18相比具有更高的鲁棒精度，与WideResNet-34-10相比具有可比的鲁棒精度，而ViT模型与其他两种模型相比具有更好的清洁精度。在这里，与WideResNet-34-10等大型CNN相比，ViT在对抗性训练后并不能提高鲁棒精度。我们推测，ViT可能需要更大的训练数据或更长的训练时间，以进一步提高其强健的训练性能，这是受以下事实启发的：在自然训练中，如果没有大规模的预训练，ViT也无法表现良好。虽然T2T-ViT在从头开始训练时改善了自然训练的表现，但我们之前在表1和表2中的结果表明，T2T-ViT结构可能天生就不那么健壮。我们还尝试了Wong等人（2020年）的建议，该建议旨在缓解FGSM的过度拟合，以使用FGSM进行快速对抗性训练，但我们发现，它仍然可能导致ViT的灾难性过度拟合，因此PGD攻击的测试准确度仍然几乎为0。我们推测这种快速训练方法可能不适用于预训练模型或需要进一步调整。我们在本节中的实验表明，使用PGD或TRADES的对抗性训练框架适用于视觉任务的Transformers，我们为未来的探索和改进提供了基线结果和见解。

6 对抗性稳健性推理

在本节中，我们将进行扩展分析，以剖析ViTs中改进的对抗鲁棒性的来源。我们还验证了ViT的改进不是由攻击优化不足引起的，并从Hopfield网络的角度进行了解释（详情见附录D）。

学习低级结构会降低模型的鲁棒性

一个有趣且可能令人惊讶的发现是，当帮助学习局部结构的模块在Transformers块之前添加时，VIT的鲁棒性较差。例如，T2T-ViT将几个T2T模块添加到ViT的头部，ViT迭代地将相邻的token聚合到每个局部感知字段中的一个token中。ViT-B/16 Res将ResNet生成的特征作为输入，其效果与在Transformers块前面加入经过训练的CNN层相同。这两个模块都有助于学习边缘和线条等局部结构（Yuan等人（2021））。

当引入ResNet学习到的特性时，在PGD攻击下，ViT-B/16的ASR从ViT-B/16的51.1%上升到54.5%，在自动攻击下，从60.2%上升到72.3%，攻击半径e=0.001。通过比较ViTs和T2T ViTs的ASR，可以观察到类似的现象。在攻击半径e=0.001的情况下，T2T-ViT-14在PGD攻击下的ASR比ViT-S/16高18.3%，在自动攻击下的ASR比ViT-S/16高35.2%。

一种可能的解释是，引入的模块通过记住训练数据集中反复出现的低级结构来提高分类精度。这些结构，如边和线，是高频率和敏感的扰动。学习这些特性会使模型更容易受到敌对攻击。第6.1节对该假设进行了检验。

增加Transformers模块的比例可以提高鲁棒性

Hendrycks等人（2019年）提到，较大的模型并不一定意味着更好的鲁棒性。我们的实验证实了这一点，在PGD攻击和自动攻击下，ViT-S/16比较大的ViT-B/16具有更好的鲁棒性。在这种情况下，简单地向分类器添加transformer块并不能保证更好的鲁棒性。然而，我们认识到，对于同时具有T2T和transformer块的混合架构，通过增加模型中transformer块的比例来提高对抗鲁棒性是有用的。如表1和表2所示，在两种攻击下，T2T-ViT-24的ASR均低于T2T-ViT-14。除了transformer block，我们发现其他注意机制模块（如SE block）也提高了对抗鲁棒性——由于SEResNet50的注意比例最小，SEResNet50的ASR高于ViT和T2T ViT模型，但低于其他纯CNN。这两个发现是一致的，因为注意机制是Transformers块的基础。

预训练不能提高鲁棒性

预训练对于ViTs实现竞争性标准精度至关重要，CNN从头开始训练（Dosovitskiy et al.（2020））。然而，预训练可能不是鲁棒性更好的主要原因。为了说明这一点，我们在大型数据集上预训练了CNN，并在ImageNet-1k上进行了微调，以检查预训练对对抗鲁棒性的影响。在大型数据集IG-1B-Targeted（Mahajan et al.（2018））和YFCC100M（Thomee et al.（2015））上预训练的CNN，其比ViT、ResNet50-swsl和ResNeXt-32x4d-ssl使用的ImageNet-21k更大，但其ASR仍然与未预训练的ResNet18和ResNet50-32x4d相似或更高。这支持了我们的观察，即当前形式的预训练可能无法提高对抗鲁棒性。Hendrycks等人（2019年）还报告说，没有对抗性训练技术的训练前训练无法提高对抗性稳健性。ViT对扰动的恢复力更多地对应于Transformers结构，而不是预训练。

6.1 频率研究和特征可视化

表4：针对PGD攻击的目标模型的频率研究和ASR（%）。在“低通”列中，仅保留低频对抗干扰，并将其添加到输入图像中。在“高通”列中，只有高频扰动才能通过滤波器。“全通”模式与传统PGD攻击相同。我们将攻击步长设置为40，并将攻击半径更改为不同的值，如第二行所示。

在这里，我们进行了频率研究和特征可视化，以支持我们的主张，即VIT更稳健，因为与其他模型相比，VIT学习到较少关注高频特征。当在ViT结构中引入其他模块时，这种特性可能会减弱，从而导致混合ViT的对抗鲁棒性较差。

频率研究

我们设计了一项频率研究来验证我们的假设，即VIT与CNN相比具有更强的鲁棒性，因为VIT学习的高频特征较少。如等式3所定义，对于PGD攻击产生的对抗性干扰，我们首先通过DCT将其投影到频域。我们设计了三个频率滤波器，如附录B图5所示：全通滤波器、低通滤波器和高通滤波器。我们将224×224像素中低频区域的32×32像素作为低通滤波器，高频区域的192×192像素作为高通滤波器。每个滤波器只允许相应的频率通过-当对抗性扰动通过低通滤波器时，高频滤波器组件被过滤掉，反之亦然，并且全通过滤器不做任何更改。然后，我们将这些滤波器应用于扰动的频率，并使用IDCT将其投影回空间域。我们测试了不同频率区域下的ASR，结果如表4所示。

当仅保留扰动的高频时，“高通”列中ViT的ASR相对较低。相比之下，CNN在“高通”列中的ASR显著高于在“低通”列中的ASR。这反映出CNN比VIT对高频对抗性干扰更敏感。我们还观察到，添加学习低级结构的模块使模型对高频扰动更加敏感。与普通ViT相比，T2TViT-14、T2T-ViT-24和ViT-B/16 Res在“高通”列中具有较高的ASR，在“低通”列中具有较低的ASR，这验证了我们的假设，即低水平特征的不利稳健性较低。此外，当向T2T-ViT模型添加更多Transformers块时，该模型对对抗性扰动的高频不太敏感，例如，T2T-ViT-24在“高通”列中的ASR比T2T-ViT-14低8.7%。

特征可视化

我们遵循Yuan等人（2021年）的工作，将从图4中的目标模型的第一个块中学习到的特征可视化。对于CNN，我们将输入图像的分辨率调整为224×224；对于VIT和T2T VIT，我们将输入图像的分辨率调整为1792×1792，以便来自第一个块的特征图的形状相同，为112×112。线和边等低级特征以蓝色（明显可见）和绿色（轻微可见）突出显示。如图4所示，诸如ResNet50 swsl和ResNet50-32x4d等CNN学习具有明显边缘和线条的功能。通过T2T-ViT-24和ViT-B/16-Res学习可感知的低级特征。但在ViT-B/16学习的特征图中很难观察到此类信息。特征可视化与频率研究相结合表明，模型在对抗性干扰下的脆弱性与模型学习低水平高频特征的倾向高度相关。帮助模型学习这些特性的技术可能会提高干净数据的性能，但有牺牲对抗性健壮性的风险。

7 结论

本文首次研究了ViTs对对抗性干扰的鲁棒性。我们的结果表明，ViTs比CNN在考虑的对抗性攻击和认证的鲁棒性设置上更具鲁棒性。此外，我们还表明，VIT学习到的特征包含较少的低级信息，有助于提高对通常包含高频成分的对抗性干扰的鲁棒性；在ViTs中引入卷积块有助于学习低级特征，但会对对抗性稳健性产生负面影响，并使模型对高频扰动更加敏感。我们还演示了ViT的对抗性训练。我们的工作提供了对ViTs固有鲁棒性的深入理解，并可用于基于Transformers结构的鲁棒视觉模型的设计。

补充材料

在本补充材料中，我们在实验中提供了更多的分析和结果。

目标模型

正文中调查的目标模型汇总如表5所示。这些模型的权重都可在Paszke等人（2019）处公开获得；Wightman（2019），这样我们的实验就可以很容易地重现。

B 频率滤波器

我们在图5中展示了频率滤波器的设计。

C 迁移攻击结果

使用更多攻击半径的迁移攻击结果如图6所示

D.对抗性稳健性的来源

在本节中，我们将研究我们的实验中揭示的对抗性稳健性的来源。

ViT鲁棒性的提高不是由于攻击优化不足造成的。

我们首先通过绘制具有足够攻击步骤的损失图来证明，在白盒攻击中，ViT具有更好的鲁棒性并不是由于ViT中的困难优化造成的。

图7显示了ViT-S/16和ResNet18的交叉熵损失与各种PGD攻击步骤之间的关系。如图所示，ViT的损失曲线收敛于比RestNet18低得多的值，这表明ViT的鲁棒性提高不是由于攻击优化不足造成的。

图8显示了针对不同攻击半径（“eps”）和攻击步骤（“步骤”）的PGD攻击的更多目标模型的鲁棒精度。视觉Transformers拥有比CNN更暗的方块，这代表了它们对PGD攻击的超强对抗鲁棒性。

Hopfield网络视角

最近，Ramsauer等人（2020）证明了Transformers中的注意机制与现代Hopfield网络（Krotov&Hopfield（2016））之间的等效性。此外，在简单的Hopfield网络（一层类似注意力的网络）和数据集（MNIST）上，Krotov&Hopfield（2018）显示了更强的对抗鲁棒性。因此，Transformers中的注意力与Hopfield网络的联系可以用来解释VIT对抗鲁棒性的提高。

E CIFAR-10的实验

我们选择ImageNet作为基准，因为当直接在像Cifar这样的小数据集上进行训练时，VIT很难收敛。因此，我们对VIT进行了微调。如表6所示，ViT-B/4比WideResNet具有更高的鲁棒精度，这与ImageNet的趋势一致。

表6:ViT-B/4和WideResNet对不同攻击半径的PGD-10攻击的鲁棒精度。

F SOTA-VIT结构的实验

在本节中，我们补充了最近提出的SOTA VIT的实验结果。

Swin Trasnformer（Liu等人，2021年）使用移位窗口方案计算表示，该方案通过将自注意计算限制在非重叠的局部窗口，同时允许跨窗口连接，从而带来更高的效率。

DeiT（Touvron等人，2021年）使用CNN教师提供的数据增强或蒸馏以及额外的蒸馏token，进一步提高了ViTs的性能。

SAM ViT（Chen等人，2021年）使用锐度感知最小化（Foret等人，2020年）在ImageNet上从头开始训练ViT，无需大规模预训练或强大的数据增强。

表7总结了我们实验中研究的模型的信息。表7中SWITransformers的窗口尺寸为7。这些模型的预训练权重在timm软件包中提供。

表8显示了表7中ViTs在不同半径的40步PGD攻击下的干净和稳健精度。自动攻击的结果如表9所示。Swin transformers引入了移位窗口方案，将自关注计算限制在非重叠的局部窗口上，根据上述结果，这损害了token方案作为token的鲁棒性。

表8：表7中所述VIT在不同攻击半径的40步PGD攻击下的鲁棒精度（%），以及清洁精度（“清洁”）。如果鲁棒精度较高，则认为模型更鲁棒。

变换器鲁棒性-2：On the Adversarial Robustness of Vision Transformers

推荐阅读更多精彩内容