@article{athalye2018obfuscated,
title={Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples},
author={Athalye, Anish and Carlini, Nicholas and Wagner, David},
journal={arXiv: Learning},
year={2018}}
概
由于有很多defense方法都是基于破坏梯度(不能有效计算梯度, 梯度爆炸, 消失), 但是作者提出一种算法能够攻破这一类方法, 并提议以后的defense方法不要以破坏梯度为前提.
主要内容
: 模型;
: 样本
为类别
的概率;
: 第
层;
: 第
到
层;
:
;
: 真实标签.
Obfuscated Gradients
- Shattered Gradients: 一些不可微的defense, 或者一些令导数不存在的defense造成;
- Stochastic Gradients: 一些随机化的defense造成;
- Exploding & Vanishing Gradients: 通常由一些包括多次评估的defense造成.
BPDA
特例
有很多方法, 会构建一个不可微(或者其导数"不好用")的函数, 然后用模型
替代
, 从而防御一些基于梯度的攻击方法, 而且这类方法往往要求
.
这类防御方法, 可以很简单地用
替代, 从而被攻破(如果我们把视为模型的第1层, 那我们实际上就是攻击第二层).
一般情形
假设(即第i层)是不可微, 或者导数“不好用", 则我们首先构造一个可微函数
, 使得
, 在反向传递导数的时候(注意只在反向用到
), 用
替代
.
注: 作者说在前向也用是低效的.
EOT
这类方法使用于攻破那些随机化的defense的, 这类方法往往会从一个变换集合中采样
, 并建立模型
, 如果单纯用
来攻击效果不好, 可以转而用
替代.
Reparameterization
重参用于针对梯度爆炸或者消失的情况, 因为这种情况往往出现于, 而
是对
的一个多次评估(所以
可以理解为一个很深的网络).
策略是利用构建, 并且满足
(咋看起来很奇怪, 看了下面的DefenseGAN就明白了).
利用, 我们找到对应的对抗样本
.
具体的案例
Thermometer encoding
这里的是针对样本每一个元素
的,
:
只需令
Input transformations
包括:
image cropping, rescaling, bit-depth reduction, JPEG compression, image quilting
既包括随机化又包括了不可微, 所以既要用EPDA, 也要用EOT.
LID
LID能够防御
的攻击的主要原因是由于该函数陷入了局部最优. 因为LID高的样本不都是对抗样本, 也有很多普通样本.
忽视LID, 用原始的L2attack就能够有效攻破LID.
Stochastic Activation Pruning
SAP实际上是dropout的一个变种, SAP会随机将某层的的某些元素突变为0(其概率正比于元素的绝对值大小).
这个方法可以用EOT攻破, 即用来代替
.
Mitigating through randomization
这个方法的输入是的图片, 他会被随机变换到
大小,
, 并随机补零使得其大小为
.
同样, 用EOT可以攻破.
PixelDefend
pass
DenfenseGAN
对于每一个样本, 首先初始化个随机种子
, 对每一个种子, 利用梯度下降(
步)以求最小化
其中为利用训练样本训练的生成器.
得到个点
, 设使得(DGAN)最小的为
, 以及
, 则
就是我们要的, 样本
在普通样本数据中的投影. 将
喂入网络, 判断其类别.
这个方法, 利用梯度方法更新的难处在于, 这一过程, 包含了
步的内循环, 如果直接反向传梯度会造成梯度爆炸或者消失.
所以攻击的策略是:
找到, 于是
.
注意, 通过这个式子能找到对抗样本说明, 由训练样本训练生成器, 生成器的分布, 实际上并不能能够撇去对抗样本.