1.引言
这篇文章由Goodfellow等人发表在ICLR2015会议上,是对抗样本领域的经典论文。这篇文章主要提出与之前论文不同的线性假设来解释对抗样本的存在性。同时,论文提出了一种简单的对抗样本生成方法FGSM,并且再利用该攻击方法产生的对抗样本进行对抗训练。总得来说,这篇文章主要说明的对抗样本的三个方面:1.存在性、2.攻击方法、3.防御方法。
2.对抗样本的线性解释
因为样本输入特征(input feature)的精度有限(一般图像的每个像素是8bits, 样本中所有低于1/255的信息都会被丢弃),所以当样本中每个元素值添加的扰动值小于样本输入特征精度时,分类器无法将样本区分开。对抗样本的线性解释表明,对线性模型而言,如果其输入样本有足够大的维度,那么线性模型也容易受到对抗样本的攻击。
3.非线性模型的线性扰动
作者利用对抗样本的线性解释提出了一个快速产生对抗样本的方式,也即Fast Gradient Sign Method(FGSM)方法。假设模型的参数值为,模型的输入是 ,是模型对应的标签,是损失函数,对某个特定的模型参数而言,FGSM方法将损失函数近似线性化,从而获得保证无穷范数限制的最优的扰动(即),扰动值具体为:
实验表明,FGSM这种简单的算法确实可以产生误分类的对抗样本,从而证明了作者假设的对抗样本的产生原因是由于模型的线性特性。同时,这种算法也可作为一种加速对抗训练的方法。
4.对抗样本泛化原因
我们都知道很多论文都表明,对抗样本具有Transferability。具体来说,在一个特定模型上产生的对抗样本通常也容易被其他模型误分类,即使这些模型的结构不同或者模型在不同的训练集上训练。甚至,不同的模型对对抗样本误分类的结果相同!作者表明,非线性或者过拟合的假设不能解释上述的现象,即, 为什么拥有无限能力的极度非线性模型会以相同的方式标注数据分布点?
在本文提出的线性解释下,作者认为对抗样本在广泛的子空间存在。
在不同的 下,可以看到FGSM可以在一维的连续子空间内产生对抗样本,而不是特定的区域。这就解释了为什么对抗样本特别多,以及对抗样本transferability存在的原因。
另外,为了解释为什么不同的分类器将对抗样本误分类到同一个类,作者假设目前的方法训练神经网络都类似于在同一个训练集上学习的线性分类器。由于机器学习算法的泛化能力,所以线性分类器可以在训练集的不同子集上训练出大致相同的分类权重。底层分类权重的稳定性反过来又会导致对抗样本中的稳定性。
5.总结
优点:这篇论文中,Goodfellow否定了Szegedy关于为什么神经网络易受到对抗样例攻击的解释,他认为神经网络在高维空间中线性性质才是导致对抗样例存在的真正原因。基于这种解释,Goodfellow提出了一种快速生成对抗样例的方法,即快速梯度符号法,这种方法的核心思想是沿着梯度的反方向添加扰动从而拉大对抗样例于原始样本的距离,因为Goodfellow认为在构造对抗样例时,我们更应该关心的是扰动的方向而不是扰动的数目。Goodfellow认为对抗样例之所以有泛化性的原因是因为添加的扰动与模型的权重向量高度一致,而且不同的模型在被训练执行相同的任务时,从训练数据中学到的东西相似。在这篇文章中,Goodfellow提出了对抗训练的思想,他认为对抗训练会导致训练过程中的正则化,而且其效果甚至超过了 。
不足:这篇文章中提出的快速梯度符号法存在明显的缺点,首先,这是一种不定向的攻击,只能让模型出错而无法做到定向攻击。而且这种攻击的鲁棒性不强,添加的扰动容易在图片的预处理阶段被过滤掉。尽管Googdfellow提出的对抗训练方式可以提高模型的泛化能力,从而在一定程度上防御对抗样例攻击,但这种防御方法只针对一步对抗样例攻击有效,攻击者仍可以针对新的网络构造其他的对抗样例。