恒源云(GPUSHARE)_基于梯度的NLP对抗攻击方法

文章来源 | 恒源云社区

原文作者 | Mathor

前言：

Facebook提出了一种NLP通用的攻击方法，而且可以通过梯度优化，论文发表在EMNLP2021，名为Gradient-based Adversarial Attacks against Text Transformers，源码在facebookresearch/text-adversarial-attack

BACKGROUND

我们首先定义模型 $h:\mathcal{X}→\mathcal{Y}$ ，其中 $\mathcal{X}$ 和 $\mathcal{Y} \$ 分别是输入输出集。设测试样本 $x$ ∈ $\mathcal{X}$ 被模型正确预测为标签 $y$ ，则有 $y=h(x)$ ∈ $\mathcal{Y} \$ 。如果一个与 $x$ 无限接近的对抗样本 $\mathbf{x}^′\$ 使得 $h(\mathbf{x}^{\prime})\neq y \$ ，则 $x ′$ 是一个好的对抗样本。我们可以通过定义函数 $\rho: \mathcal{X}\times \mathcal{X} \to \mathbb{R}_{\ge 0}$ 来量化 $\mathbf{x}\$ 和 $x ′$ 的接近程度。设阈值 $\epsilon > 0$ ，如果 $ρ(x,x ′ )≤ϵ$ ，则认为对抗样本 $x ′$ 与样本 $\mathbf{x}$ 非常接近

寻找对抗样本的过程通过被视为一个优化问题，例如对于分类问题来说，模型 $h$ 输出一个logits向量
$ϕ h (x)∈R ^K$ ，使得 $y = \arg max_{k}\phi_h(\mathbf{x})_k \$ ，为了使得模型预测错误，我们可以将margin loss选作对抗损失：

当损失为0的时候，模型会在超参数 $\kappa$ 的控制下预测错误。margin loss在2017年的论文Towards evaluating the robustness of neural networks，关于图像对抗算法中就被证明过有效

这部分注释我想仔细解释下为什么margin loss可以使得模型分类错误。模型训练的最终目的是为了优化margin loss，使得它的损失值降为0，即

只要满足上式情况，损失值就为0了。通过变形我们可以得到

其中，$ϕ
_h

(x)_
y
$指的是输入$ \mathbf{x}$被模型正确预测为类别 $y$ 的logit值。不妨设

并且

i\neq y

，这表明在所有的错误类别中，第

i

类的logit最大，并且结合上面的不等式可得

总结一下，我们的优化目标永远都是使得损失值降为0，但是损失降为0并不一定代表就要模型对所有的样本都正确预测，margin loss优化的目标就是使得模型预测错误类别

i

的logit比预测正确类别

y

的logit大

\kappa

。但凡存在一个样本预测正确，损失都不可能为0

给定对抗损失 $\ell$ ，构造对抗样本的过程可以被视为一个有限制的优化问题：

我们可以把约束 $\rho$ 带入损失函数中，将原本的硬约束变为软约束

如果约束函数 $\rho$ 是可微的，就可以用基于梯度的优化器来优化了

式(2)在图像或者语音等连续数据领域已被广泛应用，但实际上它并不适用于文本数据，主要有两点原因：

数据空间 $\mathcal{X}$ 是离散的，因此无法利用梯度进行优化
约束函数 $\rho$ 难以度量文本数据，例如在一个句子中插入"不是"，这个词会否定整个句子的意义，但如果我们用编辑距离去计算两个句子的差异，它们的编辑距离仅为1

GBDA: GRADIENT-BASED DISTRIBUTIONAL ATTACK

论文作者所提出的方法解决了上面两个问题：

利用Gumbel-Softmax使得采样过程可以被梯度优化
通过引入困惑度和语义相似度这两个软约束，促使对抗样本的语义更加流畅以及与原样本间的语义更接近

Adversarial Distribution

令 $\mathbf{z} = z_1z_2\cdots z_n\$ 是句子 $\mathbf{z}$ 的token序列，其中 $z_i$ 来自于一个固定的词汇表 $\mathcal{V} = {1,…,V}\$ 。设概率分布 $P_{\Theta}$ 来自于一个参数化的概率矩阵 $\Theta \in \mathbb{R}^{n\times V}$ ，句子 $z∼P Θ \$ 中的每个token都是通过下面的公式独立抽样出来的

其中， $\pi_i = \text{Softmax}(\Theta_i)$ 表示第 $i$ 个token概率分布的向量

我们的目标是优化参数矩阵 $\Theta$ ，使得 $\mathbf{z}\sim P_{\Theta}$ 为模型 $h$ 的对抗样本，为了做到这一点，我们需要优化的目标函数为

其中， $\ell$ 为可选的对抗损失，例如margin loss

Extension to probability vector inputs

公式(5)很明显不是一个可导的函数，因为分布是离散的，并且我们是通过采样得到的，采样这个操作没有公式，也就无法求导。但是，我们可以对公式(5)进行缩放，将概率向量作为输入，并且使用Gumbel-Softamx作为 $⁡\arg \max$ 的估计值，以此来引入梯度

句子 $\mathbf{z}$ 中每个token $z_i$ 在Vocabulary中的索引 $i$ 可以通过Word Embedding表查到相应的词向量。特别地，我们定义 $\mathbf{e}(\cdot)$ 为embedding函数，因此token $z_i$ 的embedding为 $\mathbf{e}(z_i)\in \mathbb{R}^de\$ ，其中 $d$ 是embedding维度。给定一个概率向量 $\pi_i$ ，它决定了token $z_i$ 的抽样概率，则我们定义

为对应于概率向量 $\pi_i$ 的嵌入向量。特别地，如果token $z_i$ 的概率向量 $\pi_i$ 是一个one-hot向量，则 $\mathbf{e}(\pi_i)=\mathbf{e}(z_i)$ 。有了公式(6)，我们可以将输入概率向量序列 $\boldsymbol{\pi} = \pi_1\cdots \pi_n$ 拓展为一系列embedding的拼接：

COMPUTING GRADIENTS USING GUMBEL-SOFTMAX

对模型 $h$ 进行扩展，将概率向量作为输入，使得我们能够利用Gumbel-softmax得到式(5)的平滑估计。设输入概率序列 $\tilde{\boldsymbol{\pi}} = \tilde{\pi}_1\cdots \tilde{\pi}_n$ 来自Gumbel-softmax分布，根据下面的公式得到：

其中 $g_{i,j}= -\log(-\log(u_{i,j})), u_{i,j}\sim U(0,1)$ ，即 $u_{i,j}$ 服从均匀分布。 $T$ 越接近0， $\tilde{\pi}_i$ 越接近one-hot分布

通过定义公式(5)的光滑近似值，我们就可以使用梯度下降优化参数 $\Theta$ 了

SOFT CONSTRAINS

由于作者引入Gumbel-softmax，同时将概率向量作为模型的输入，将不可导的公式(5)改写成了可导的公式(8)，因此可以很容易的将其他任何可导的约束函数作为优化目标的一部分。利用这一优势，作者将流畅性和语义相似性约束引入进目标函数中，以产生更流畅和语义更接近的对抗样本

Fluency constraint with a Language model

之前的工作都是基于词级别的攻击，例如使用Word2vec、GloVe等，或者是利用同义词替换来保证语义原样本和对抗样本之间的语义相似性，但是这些方法或多或少都会存在一些问题，例如产生的对抗样本语法不连贯、语义不流畅

因果语言模型（Causal language models, CLMs)，或者说自回归语言模型的训练目标是最大化条件概率 $p(x_i\mid x_1,x_2,…,x_{i-1})$ 。更具体地说，给定一个具有对数概率输出的CLM ggg，一个序列 $x=x 1 ⋯x n$ 的负对数概率（Negative log-likelihood, NLL）是通过自回归的方式计算出的

其中， $\log p_g(x_i\mid x_1\cdots x_{i-1})=g(x_i\mid x_1\cdots x_{i-1})$

由于之前我们定义模型的输入是某个token的概率向量，因此我们也可以扩展NLL的定义：

其中

Similarity constraint with BERTScore

作者提出使用BERTScore，这是一个用于评估生成文本相似性的方法。设 $x=x1⋯xn\mathbf{x} = x_1\cdots x_nx=x 1 ⋯x n$ 以及 $\mathbf{x}^{\prime}={x}_1^{\prime}\cdots {x}_m^{\prime}\$ 是两个token序列，令 $g$ 为语言模型，我们可以得到基于上下文语境的向量表示

则序列 $\mathbf{x}\$ 和 $x ′$ 的BERTScore定义如下：

其中， $w_i = \text{idf}(x_i) / \sum\ ^n_{i=1} \text{idf}(x_i)$ 是token $x_i$ 标准化后的逆文档频率

我们可以很容易地用式(6)中描述的概率向量序列 $\boldsymbol{\pi}=\pi_1\cdots \pi_m$ 来代替 $x′\mathbf{x}^{\prime}x ′$ ，并使用 $\rho_g(\mathbf{x},\boldsymbol{\pi})=1- R_{\text{BERT}}(\mathbf{x},\boldsymbol{\pi})$ 作为一个可导的软约束

Objective function

最后，我们把margin loss、流畅性约束与BERTScore相似性约束都整合起来，构成我们最终的优化目标：

其中， $\lambda_{\text{lm}} ,\lambda_{\text{sim}}>0$ 均为超参数，每次迭代时从 $\tilde{P}_{\Theta}$ 采样一批输入，并用Adam优化器最小化 $\mathcal{L}(\Theta)\$ 。具体来说，论文中的超参数设置为

RESULT

实验结果表明，作者的攻击能够在几乎所有情况下将模型的准确率降低到10%以下，同时保持高水平的语义相似性（余弦相似度高于0.8）

同时作者做了一个消融实验，观察流畅性约束的存在，对生成的句子以及最终的结果有什么影响

个人总结

说实话有些尴尬，我在翻EMNLP的Accepted Papers时，「Adversarial」字样突然映入我眼帘，一开始我还以为这是一种新的对抗训练方法，于是便点开论文看了看，边看边写这篇文章，结果写到快结束的时候感觉有些不对劲，我发现这篇论文其实主要不是讲Adversarial的，而是讲Attack的，但我并不是做深度学习Attack的，所以我基本上是浪费了很多时间看了个和我研究不相关的东西。由于我对深度学习攻击并不了解，所以也没什么很特别的感悟

最后编辑于：2022.02.25 10:11:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,193评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,306评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,130评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,110评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,118评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,085评论 1赞 295
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,007评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,844评论 0赞 273
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,283评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,508评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,667评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,395评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,985评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,630评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,797评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,653评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,553评论 2赞 352