Decision-Based Adversarial Attacks: Reliable Attacks Against Black-Box Machine Learning Models

论文地址
许多机器学习算法容易受到其输入几乎无法察觉的干扰。到目前为止，尚不清楚对抗性扰动对现实世界机器学习应用程序的安全性会带来多少风险，因为产生这种扰动的大多数方法都依赖于详细的模型信息（基于梯度的攻击）或诸如类的置信度得分概率（基于分数的攻击），在大多数现实情况下都不可用。在许多类似的情况下，当前需要回退到基于传输的攻击，该攻击依赖笨拙的替代模型，需要访问训练数据并且可以防御。在这里，我们强调仅依赖最终模型决策的攻击的重要性。这种基于决策的攻击适用于（1）适用于诸如自动驾驶汽车之类的现实世界黑匣子模型；（2）与基于转移的攻击相比，所需知识更少，并且更易于应用；（3）比基于梯度或分数的攻击对简单防御更强大。此类别中以前的攻击仅限于简单模型或简单数据集。在这里，我们介绍边界攻击，这是一种基于决策的攻击，它始于较大的对抗性扰动，然后力求在保持对抗性的同时减少扰动。从概念上讲，这种攻击很简单，几乎不需要超参数调整，不依赖替代模型，并且与标准计算机视觉任务（如ImageNet）中基于最佳梯度的攻击相比具有竞争力。我们对Clarifai.com的两种黑盒算法进行了攻击。特别是边界攻击和基于决策的攻击通常为研究机器学习模型的鲁棒性开辟了新途径，并提出了有关已部署机器学习系统安全性的新问题。攻击的实现可作为Foolbox的一部分获得（https://github.com/bethgelab/foolbox)

1引言

许多用于计算机视觉、语音识别和其他领域的高性能机器学习算法对其输入的最小变化很敏感。作为一个具体的例子，一个现代的深度神经网络，如VGG-19，在对象识别方面的训练可以完美地识别出图像中的主要对象，但如果像素值只是以特定的方式稍微受到扰动，那么同一个网络的预测就会发生巨大变化（例如公交车）。这些所谓的对抗性扰动在许多机器学习模型中普遍存在，而且人类通常无法察觉。寻找这种对抗性干扰的算法通常被称为对抗性攻击。对抗攻击引起了对两个不同方面的关注。一方面，他们担心已部署的机器学习算法（如自动汽车或人脸识别系统）的完整性和安全性。对街道标志（例如，将停车标志转换为200 km/h的限速）或路灯（例如，将红灯变为绿灯）可能会产生严重的后果。另一方面，对抗性干扰提供了一个令人兴奋的焦点，在人类和机器之间的感官信息处理之间的差距，从而为更健壮的，类似人类的建筑提供指导。对抗性攻击大致可分为三类：基于梯度的攻击、基于分数的攻击和基于转移的攻击（cp。图1）。基于梯度的攻击和基于分数的攻击通常分别表示为白盒攻击和黑盒攻击，但是我们尽可能明确地说明每一类中使用了什么信息。影响所有这些类别的攻击的一个严重问题是，它们令人惊讶地直截了当地进行防御

基于梯度的攻击：
大多数现有的攻击依赖于详细的模型信息，包括输入时损失的梯度。例如快速梯度符号法（FGSM）、基本迭代法（BIM）（Kurakin等人，2016年）、DeepFool（Moosavi-Dezfouli等人，2015年）、基于雅可比矩阵的显著性图攻击（JSMA）（Papernot等人，2015年）、Houdini （Cisse等人，2017年）以及C&W攻击（Carlini&Wagner，2016a）
防御：防御基于梯度的攻击的一个简单方法是屏蔽梯度，例如通过隐式添加不可微元素，或者通过类似于防御蒸馏或饱和非线性等手段隐式添加不可微元素，或者显式地通过不可微分类器之类的方法。
基于分数的攻击：
一些攻击是不可知的，只依赖于模型的预测分数（例如类概率或逻辑）。在概念层面上，这些攻击使用预测来数值估计梯度。这包括JSMA（Narodytska&Kasiviswanathan，2016）和Carlini&Wagner攻击（Chen等人，2017）的黑盒变体，以及预测对抗的发电机网络（Hayes&Danezis，2017）。
防御：在模型中加入随机元素如dropout会严重阻碍数值梯度估计。此外，许多稳健的训练方法在样本周围引入了一个边缘锐利的平台（Tramer et al.，2017），这不仅掩盖了梯度本身，还掩盖了其数值估计。
基于传输的攻击：
基于传输的攻击不依赖于模型信息，而是需要训练数据的信息。这些数据用于训练一个完全可观测的替代模型，从中可以合成对抗性扰动（Papernot等人，2017a）。他们依赖于经验观察，对抗性的例子经常在模型之间转移。如果在一组替代模型上创建对抗性示例，在某些情况下，攻击模型的成功率可以达到100%（Liu等人，2016）。防御：最近的一种针对转移攻击的防御方法（Tramer等人，2017）基于对数据集的鲁棒训练，该数据集由一组替代模型的对抗性示例进行增强，已被证明在2017年Kaggle对抗性攻击竞赛中基本上成功地抵御了所有攻击(https://www.kaggle.com/c/nips-2017-defense-against-adversarial-attack)

可以轻松避免许多攻击的事实使得评估模型是否真正可靠或攻击是否过于脆弱通常变得极为困难，这导致过早地宣称DNN具有稳健性(Carlini & Wagner, 2016b; Brendel & Bethge, 2017).
这促使我们将注意力集中在迄今为止尚未引起足够重视的一类对抗性攻击上:

基于决策的攻击: 直接攻击完全依赖于模型的最终决定

出于以下原因，对此类分类进行说明是合理的：首先，与基于分数的攻击相比，基于决策的攻击在很少能访问置信度分数或logit的真实世界机器学习应用程序中更为相关。同时，与其他类别的攻击相比，基于决策的攻击对梯度防御，内在随机性或鲁棒训练等标准防御具有更强大的潜力。最后，与基于传输的攻击相比，它们所需的模型信息少得多（架构和训练数据都不需要），并且应用起来更简单。

当前，尚无有效的基于决策的攻击可扩展至ImageNet等自然数据集，并适用于深度神经网络（DNN）。最相关的先验工作是转移攻击的一种变体，其中学习替代模型所需的训练集被合成数据集替代（Papernot等，2017b）。该综合数据集是由对手在替代训练的同时生成的；每个合成样品的标签均来自黑盒模型。尽管此方法在类内变异性较低的数据集（例如MNIST）上效果很好，但尚未证明它可以扩展到更复杂的自然数据集，例如CIFAR或ImageNet。其他基于决策的攻击特定于线性或凸诱导分类器（Dalvi等，2004； Lowd＆Meek，2005； Nelson等，2012），不适用于其他机器学习模型。 Biggio等人（2013年）的工作基本上介于转移攻击和基于决策的攻击之间，因为替代模型是在已从黑盒模型中观察到标签的数据集上训练的。这种攻击仍然需要了解训练黑盒模型所依据的数据分布的知识，因此我们不认为这是纯粹的基于决策的攻击。最后，一些天真的攻击（例如沿远离原始样本的随机方向进行线搜索）可以被视为基于决策的攻击，但它们会引起较大且非常明显的扰动，其数量级比典型的基于梯度，基于分数或基于传输的攻击的扰动大几个数量级。

在整篇文章中，我们重点关注威胁场景，在这种情况下，攻击者旨在通过对样本造成最小的扰动来改变其对特定输入样本的模型（目标或非目标）的决策。对手可以观察模型对任意输入的最终决定，并且知道至少一个扰动（无论大小多大），对于该扰动样本，该扰动是对抗性的

本文的贡献如下：

我们强调基于决策的攻击是对抗性攻击的重要类别，它与实际应用高度相关，对于评估模型的健壮性也很重要
我们介绍了第一个有效的基于决策的攻击，该攻击可扩展到复杂的机器学习模型和自然数据集。边界攻击是（1）从概念上讲非常简单，（2）极其灵活，（3）几乎不需要超参数调整，并且（4）在有针对性和无目标的计算机视觉场景中均具有最佳的基于梯度的攻击能力
我们表明边界攻击能够打破先前提出的防御机制，例如防御性蒸馏
我们演示了边界攻击在Clarifai.com上提供的两个用于品牌和名人识别的黑匣子机器学习模型上的实际适用性

1.1注释

在整篇论文中，我们使用以下符号： $o$ 表示原始输入（例如图像）， $y = F(o)$ 表示模型 $F(·)$ 的完整预测（例如 $logits$ 或概率）， $y_{max}$ 是预测标签(例如分类标签)，类似地， $\tilde{o}$ 表示对抗性扰动的图像， $\tilde{o}^k$ 表示攻击算法的第 $k$ 个步骤的扰动图像，向量用粗体表示。

2边界攻击

边界攻击算法背后的基本直觉如图2所示：该算法从已经是对抗性的点初始化，然后沿着对抗性区域和非对抗性区域之间的边界执行随机游动，从而使（1）停留在对抗区域中（2）到目标图像的距离减小了。换句话说，我们使用合适的提议分布P进行拒绝抽样，以根据给定的对抗标准 $c(.)$ 逐渐找到较小的对抗扰动。该算法的基本逻辑在“算法1”中进行了描述，每个单独的构造块将在下一部分中详细介绍

2.1初始化

边界攻击需要使用已经对抗的样本进行初始化。在无目标的情况下，我们简单地从给定输入有效域的最大熵分布中采样。在下面的计算机视觉应用中，输入被限制在每个像素[0，255]的范围内，我们从均匀分布 $U[0，255$ 对初始图像 $\tilde{o}^0$ 中的每个像素进行采样。我们拒绝非对抗性的样本。在有针对性的情况下，我们从模型分类为来自目标类别的任何样本开始。

2.2提案分配

算法的效率关键取决于提议分布P，即在算法的每个步骤中探索哪个随机方向。最佳建议分配通常取决于要攻击的域和/或模型，但是对于此处测试的所有与视觉相关的问题，非常简单的建议分配效果很好。此提案分布的基本思想如下：在第k步中，我们要从最大熵分布中得出受以下约束的扰动 $η^k$ :

2.3对抗性标准

将输入归类为敌对输入的一个典型标准是错误分类，即模型是否将扰动输入分配给与原始输入的类标签不同的类。另一个常见的选择是目标错误分类，对于这种情况，扰动输入必须在给定的目标类中进行分类。其他选择包括top-k错误分类（为扰动输入预测的top-k类不包含原始类标签）或某些置信分数的阈值。除了计算机视觉之外，还有许多其他的选择，比如 word-error rates 的标准。与大多数其他攻击相比，边界攻击在对抗标准方面非常灵活。它基本上允许任何标准（包括不可微的标准），只要该标准能找到初始对手（在大多数情况下这是微不足道的）

2.4超参数调整

边界攻击只有两个相关参数：总扰动 $δ$ 的长度和朝向原始输入的步长 $\epsilon$ (参见图2)。我们根据边界的局部几何动态调整两个参数。该调整受“信任区域”方法的启发。本质上，我们首先测试正交扰动是否仍然是对抗性的。如果是，那么我们朝目标稍作移动，然后再次进行测试。正交步长测试步长是否足够小，以便我们可以将对抗区域和非对抗区域之间的决策边界视为近似线性。如果是这种情况，那么我们预计大约50％的正交扰动仍然是对抗性的。如果此比率低得多，我们将减小步长δ，如果接近50％或更高，则将其增大。如果正交扰动仍然是对抗性的，我们会向原始输入增加一小步。此步骤的最大大小取决于本地邻域中决策边界的角度（另请参见图2）。如果成功率太小，我们减小 $\epsilon$ ，如果成功率太大，我们增大它。通常，越接近原始图像，决策边界就越平坦，并且 $\epsilon$ 必须继续进步。攻击直达 $\epsilon$ 趋近于0才收敛。

3与其他攻击的比较

我们对三种不同标准数据集的边界攻击性能进行了量化：MNIST（LeCun等，1998），CIFAR-10（Krizhevsky和Hinton，2009）和ImageNet-1000（Deng等，2009）。为了使与先前结果的比较尽可能简单和透明，我们在此使用与Carlini＆Wagner（2016a）4相同的MNIST和CIFAR网络。简而言之，MNIST和CIFAR模型都具有9个层，其中包括4个卷积层，两个max-pooling层和两个完全连接的层。有关所有细节（包括训练参数）的信息，请读者参考（Carlini＆Wagner，2016a）。在ImageNet上，我们使用Keras5提供的预训练网络VGG-19（Simonyan＆Zisserman，2014），ResNet-50（He等，2015）和Inception-v3（Szegedy等，2015）。我们在两个设置中评估边界攻击：（1）非目标设置，其中对抗性扰动将原始样本的标签翻转到任何其他标签；（2）目标设置，其中对抗性将标签翻转至特定目标类。在无目标设置中，我们将边界攻击与三种基于梯度的攻击算法进行了比较：

为了评估每次攻击的成功性，我们使用以下度量：令 $η_{A，M}(o_i)∈ \Bbb R^N$ 为攻击A在第 $i$ 个样本 $o_i$ 上对模型M的对抗性扰动。 A的总分 $S_A$ 是所有样本中L2距离的中位数平方

对于MNIST和CIFAR，我们从验证集中评估了1000个随机抽取的样本，对于ImageNet，我们使用了250张图像

3.1非目标攻击
在非目标设置中，对抗性是指其预测标签与原始图像的标签不同的任何图像。我们在图3中显示了由边界攻击合成的对抗性样本。每个攻击和每个数据集的得分（4）如下：

尽管边界攻击简单，但在最小的对抗扰动方面与基于梯度的攻击相比具有竞争优势，并且在选择初始点时非常稳定（图5）。考虑到基于梯度的攻击可以完全观察到模型，而边界攻击严格限于最终类别的预测，因此这一发现非常引人注目。为了弥补信息的不足，边界攻击需要更多的迭代来收敛。作为对攻击运行时间的粗略度量，与攻击的实现质量无关，我们跟踪了每种攻击所请求的通过网络的前向通过（预测）和后向通过（梯度）的数量，以找到ResNet的对抗者-50：在与之前相同的条件下，平均超过20个样本，DeepFool需要大约7个正向和37个反向通过，Carlini＆Wagner攻击需要16.000个正向和相同数量的反向通过，而Boundary Attack使用1.200.000个向前通过但零后向通过。尽管这（毫无疑问）使边界攻击的运行成本更高，但需要注意的是，如果仅对不可察觉的扰动感兴趣，则边界攻击需要的迭代次数要少得多，请参见图4和6。

3.2目标攻击

我们还可以在目标设置中应用边界攻击。在这种情况下，我们从模型正确识别的目标类的样本中初始化攻击。从起点到原始样本的样本轨迹如图7所示。大约 $10^4$ 次调用模型后，扰动的图像已经被人类清楚地识别为猫，并且不包含达尔马提亚狗的痕迹，因此该图像仍由模型分类。

为了将边界攻击与Carlini＆Wagner进行比较，我们通过以下方式为每个样本定义目标目标标签：在MNIST和CIFAR上，带有标签 $l$ 样本得到目标标签 $l +1$ modulo 10。在ImageNet上，我们随机绘制目标标签，但在攻击之间保持一致。结果如下

4 基于决策的攻击对评估模型稳健性的重要性

如导言所述，许多攻击方法都是可以直接防御的。一种常见的麻烦是梯度掩蔽，其中对模型进行隐式或显式修改以产生掩蔽的梯度。一个有趣的例子是饱和的S型网络（Nayebi和Ganguli，2017年），其中一个附加的正则化项导致S型激活达到饱和，进而导致梯度消失和基于梯度的攻击失败（Brendel和Bethge，2017年）
另一个例子是防御性蒸馏（Papernot et al，2016）。简而言之，防御性蒸馏使用以下类型的温度增强型softmax:

初步结果令人鼓舞：基于梯度的攻击的成功率从接近100％下降到0.5％。后来变得很清楚，蒸馏网络似乎只是很健壮，因为它们掩盖了交叉熵损失的梯度（Carlini＆Wagner，2016b）：随着softmax的温度在测试时间降低，softmax的输入会增加乘以T的因子，因此概率在0和1处饱和。这导致互熵损失wrt的梯度消失基于梯度的攻击所依赖的输入。如果将相同的攻击应用于logit，则成功率将恢复到几乎100％（Carlini＆Wagner，2016a)
基于决策的攻击不受这种防御。为了证明这一点，我们将边界攻击应用于在MNIST和CIFAR上训练的两个提炼网络。该架构与第3节中的架构相同，我们使用（Carlini＆Wagner，2016a）的实现和培训协议，该协议可从https://github.com/carlini/nn_robust_attacks获得。最重要的是，我们不对逻辑舱进行操作，而仅对边界攻击提供最大可能性的类别标签。结果如下:

边界攻击所发现的对抗性扰动的大小对于离散和未蒸馏的网络都非常相似。这表明防御性蒸馏不会显着提高网络模型的鲁棒性，并且边界攻击能够打破基于梯度掩蔽的防御

5 针对实际应用的攻击

在许多现实世界的机器学习应用程序中，攻击者无法访问体系结构或训练数据，而只能观察最终决定。对于安全系统（例如人脸识别），自动驾驶汽车或Alexa或Cortana之类的语音识别系统而言，这是正确的。在本节中，我们将边界攻击应用于Clarifai6的两个基于云的计算机视觉API模型。第一个模型以自然图像识别品牌名称，并识别500多个品牌。第二种模型可以识别名人，并可以识别超过10.000个人。每个图像可能有多个标识，但我们只考虑置信度得分最高的那个。重要的是要注意，Clarifai确实为每个确定的类别（但不是所有可能的类别）提供了置信度分数。但是，在我们的实验中，我们没有将此边界得分提供给边界攻击。相反，我们的攻击只会收到所标识对象的名称（例如，商标检测任务中的百事可乐或Verizon）。我们选择了几张带有清晰可见的品牌名称或名人肖像的自然图像样本。然后，我们进行方形裁剪，并将图像调整为100×100像素。对于每个样本，我们确保品牌或名人清晰可见，并确保相应的Clarifai模型正确标识内容。对抗性标准是错误的分类，即Clarifai应在对抗性干扰的样本中报告不同的品牌/名人或“无”。

我们在图8中显示了每个模型的五个样本以及边界攻击生成的对抗图像。我们通常观察到，与VGG-19这样的ImageNet模型相比，Clarifai模型更难攻击：而对于某些样本，我们确实找到了对抗对象与第3节相同的阶数 $(1e^{-7})$ 扰动(例如，对于Shell或SAP)，大多数对抗性扰动的数量级为 $1e^{-2}$ 至 $1e^{-3}$ ，在某些对抗性示例中会导致一些稍微明显的噪声。但是，对于大多数样本而言，原始图像和对抗图像几乎无法在视觉上区分开。