图对抗的难点:
(1)与由连续特征组成的图像不同,图形结构和节点特征是离散的。
很难设计出能够在离散空间,中生成对立示例的高效算法。
(2)敌对扰动被设计为在图像域中人类不可察觉,因此可以强制特定的距离函数,例如在敌对和良性实例之间的 Lp 范数(是一组随着p变化的范数)距离较小。
图
静态图和动态图
动态图:如果图的任何节点、边、节点特征或边特征随时间变化,则图是动态的,表示为 G(t)。(例如社交关系)
静态图:表示为 G,由一组固定的节点和边组成,它们不会随着时间的推移而改变。(例如药物分子结构)
有向图和无向图
有向图,表示为 G(Dr), 具有与每条边相关联的方向信息,其中任何有向边
e1(i) =(v1(i), v2(i)) ≠(v2(i), v1(i)) = e2(i)
无向图 ,节点共享同一条边
边属性图
边属性图表示为 G(Ae),有一些与每个边相关的特征,表示为
权重图每条边拥有权重
表示边属性图的一个权重,交通流图[68]是加权图的典型示例,其中道路用边表示,道路状况由边的权重表示。
节点属性图
节点属性图表示为 G(An),每个节点都有一些相关的特征,表示为
具有不同用户的电子商务网络可被视为节点属性图的示例,其中每个用户被建模为具有诸如人口统计和点击历史等特征的节点。
有向图和异构信息网络(异构信息网络就是节点类型或边类型大于1的网络,或者说是两者的类型数量相加大于2的网络。)是属性图的特例,广泛用于对不同的应用进行建模
将图 Gci ∈ G 中的目标分量 ci 与相应的真标签 yi ∈ Y = {1, 2, ... Y }。
这里 i∈[ 1, K], K 代表总目标成分的数目, Y 是被预测的类数。 数据集 D(ind) =
由目标图组件表示,包含 ci 的图形,以及相应的 ci 的真标签。例如,在节点分类任务中,ci 表示要分类的节点, yi 表示它在 Gci 中的标签。
根据训练和测试过程的特点,学习设置可以分为归纳学习和转换学习.
归纳学习 它是最现实的机器学习设置,通过标记的例子训练模型,然后预测训练中从未见过的例子的标签。在监督归纳学习设置下,优化分类器
其中,L(,)默认为交叉熵,ci 可以是其关联图 Gci 的节点、链接或子图。
注意,两个或更多不同的实例, c1, c2, ... cn 可以和同一个图 G ∈ G 关联直推学习。
与归纳学习不同,测试图是在直推学习的训练过程中看到的。在这种情况下,优化了分类器 f(tra) ∈ F(tra) :
G → Y:
直推学习 预测可见实例的标签
归纳学习 预测不可见实例的标签
从训练样本中学习规则然后应用在测试样本
直推学习是同时使用训练样本和测试样本来训练模型,然后再次使用测试样本来测试模型效果
图学习的统一公式:
注:打字问题,不是直感学习 而是直推学习
节点级应用:
例子是标注网络和社交网络图中的节点,其中可能包含数百万个节点,如脸书和推特。多数论文研究此,针对于直推式学习环境中的节点分类,其目标函数可以通过修改等式来制定,其中里面的ci指的是目标的表示。
总之,节点分类一般采用直推学习,
具有私有的未标记的图数据采用归纳学习
链接级应用:
动态图上的链路预测是最常见的链路级应用之一,试图预测当前网络中缺失的链接,以及未来网络中新的或分离的链接。
与节点分类任务相比,链接预测任务仍然使用节点特征但目标是图中缺失或未标记的链接。因此,我们可以通过稍微修改等式来制定链接预测任务(链接预测:将知识图谱中实体和关系的内容映射到连续向量空间中,对知识图谱中的实体或关系进行预测)。
图级应用
在化学或医学领域很常见,例如药物分子图和脑图的建模。与此设置不同,一些其他图形级应用程序使用更大图形的子图来执行特定任务
与现有的节点分类和链接预测工作相比,图分类使用图结构表示作为特征对未标记的图实例进行分类。因此,我们可通过稍微修改 Eq 来制定图形分类任务。 通过将ci 设置为图目标的表示
对图的攻击
对图形数据的一般对抗攻击)给定数据集 D = (ci, Gi,yi),在稍微修改 Gi(表示为 Gbci)后,对抗样本 Gbci 和 Gi 在不可感知性度量下应该是相似的,但是图形任务的性能变得比以前差得多
f 可以是图数据上的任何学习任务函数,链接预测、节点级嵌入、节
点级分类、图级嵌入和图级分类
φ(Gi)表示原始图 Gi 上的扰动空间,数据集表示被攻击的实例。
攻击表述为:
当
时,代表中毒发作,而当 G′ j 是未经修改的原始G时,则表示逃避攻击。
代表归纳学习和 直感学习。
注意,用 Gbci∈ φ(G), (ci, Gbci)可以表示 nodei 操纵,
edge 操纵,或者两者兼有。
对于任何 Gbc∈ φ(Gi),要求 Gbci与原始图 Gj 相似或接近,这种相似性度量可以由下面的一般距离函数定义
Q(,)表示**距离函数,ε为参数,表示每个样本的距离/成本预算。
距离函数包括
给定节点的公共邻居数、
余弦相似度、
Jaccard 相似度等
(测量攻击质量)
攻击者通过在图中添加/删除一条边来攻击一个节点,可能会遇到与添加/删除边类似的“对抗成本”。
不难看出,通过使用图距离函数或相似性度量,只有少数目标是攻击者的最佳选择(具有不同的距离),因此这也有助于优化敌对目标。
总之,由于图形表示和对抗行为的复杂性和多样性,扰动评估或图相似性度量将取决于各种因素,如不同的学习任务、对抗策略和对抗成本类型。
对抗扰动
为了在图数据上生成对立样本,我们可以修改原始图的节点或边。然而,基于某些扰动评估度量,修改后的图 Gb 需要与原始图 G“似”,并且保持“不可察觉”。
以下指标有助于理解如何定义“不易察觉的扰动”。
边级扰动。 在目前的大多数论文中,攻击者能够在给定的预算内,在整个原始图中添加/移除/重新布线边。在这种情况下,修正边的数量通常用于评估扰动的大小。除了其他扰动,边扰动很难被维护者发现,尤其是在动态图中。
节点级扰动。 攻击者还能够添加/删除节点,或者操纵目标节点的功能。在这种情况下,评估度量可以基于修改的节点数量或良性和对抗性特征向量之间的距离来计算。
结构保持扰动 与边级扰动类似,攻击者可以在给定的预算内根据
图结构修改图中的边。与一般的边级扰动相比,该方法考虑了更多的结构保持,如总度、节点分布等。例如,在[145]论文中,要求攻击者保留图的关键结构特征,如度分布。
所以这里的扰动可以用图结构漂移来衡量。
属性保持扰动。 在属性图中,每个节点或边都有自己的特征。除了操纵图结构之外,攻击者还可以选择修改节点或边的特征,以在图数据上生成对立样本。可以分析基于图属性的各种标准来表征扰动幅度。例如,在[145]论文中,作者认为,如果共现图上的概率随机行走器可以从现有(特征开始以高概率到达某个特征,则添加该特征是不可察觉的。)
请注意,大多数GNN方法学习每个节点的特征表示,这意味着它很容易受到仅结构、仅特征或两者兼有的扰动的攻击。
不易察觉的扰动评估原理。 给定各种图距离讨论,到目前为止,在现有研究中还没有关于如何设置攻击图数据的对抗成本的明确讨论。
因此,为了将来的研究,我们总结了如下定义扰动评估度量的一些原则。
• 对于静态图,修改边的数量以及良性和对抗性特征向量之间的距离都应该很小。
• 对于动态图,我们可以根据随时间内在变化的信息来设置距离或对抗成本。
例如,通过使用统计分析,我们可以获得在实践中被操纵的信息的上限,并使用该信息来设置一个不可察觉的界限。
• 对于图数据的各种学习任务,例如。节点或图的分类,我们需要使用一个合适的图距离函数来计算良性样本与其对立样本之间的相似度。例如,我们可以使用公共邻居的数量来评估两个节点的相似性,但这不适用于两个单独的图。
综上所述,相比于图像和文本数据,攻击者首先可以在信息网络上修改更多的特征,也可以基于图形数据的格式和应用任务探索更多的角度来定义“不易察觉”。
进攻阶段
逃避攻击(模型测试)和中毒攻击(模型训练)。这取决于攻击者插入对抗性干扰的能力:
投毒攻击 中毒攻击试图通过向训练数据集中添加敌对样本来影响模型的性能。现有的大部分工作都是中毒攻击,它们的节点分类任务都是在转导学习设置下进行的。在这种情况下,一旦攻击者更改了数据,模型就会被重新训练。
上,通过在等式中设置
我们有一个在投毒攻击下对图数据进行对抗攻击的通用公式。
闪避攻击 回避攻击是指训练好的模型的参数假设是固定的,攻击者试图生成训练模型的对立样本。回避攻击只改变测试数据,不需要重新训练模型
数学上,通过在等式中将G’j 设置为原始 Gj。 我们有一个在规避攻击下对图数据进行对抗攻击的一般公式。
攻击目标
尽管所有的敌对攻击都在修改数据,但攻击者需要选择他们
的攻击目标:模型或数据。在这种情况下,我们可以将其概括
为模型目标和数据目标。
模型目标
模型目标是使用任何方法攻击特定的模型。可能是闪避攻击,也可能是中毒攻击。目前大多数对抗攻击都与模型目标攻击有关。目标可能是 GNN 或其他学习模式。攻击者想要使模型在多种场景下无法工作。模型目标攻击可以通过是否使用模型的梯度信息来分类。
基于梯度的攻击
在大多数研究中,我们可以看到基于梯度的攻击总是最简单和最有效的方法。大多数基于梯度的攻击,无论是白盒还是黑盒,都试图获取或估计梯度信息,以找到模型中最重要的特征。
基于上述知识,攻击者可以基于特征对模型的重要性选择修改有限的信息,并在使用修改的信息时使模型不准确。
** 非基于梯度的攻击**
除了梯度信息,攻击可以在没有任何梯度信息的情况下破坏模型。众所周知,除了梯度,许多强化学习是基于攻击方法可以攻击基于长期奖励的模型。有些作品也可以用生成模型来构建对抗性样本。
上述方法都可以在没有梯度信息的情况下攻击模型,但在实际应用中会攻击模型。
数据目标
与模型目标攻击不同,数据目标攻击不攻击特定的模型。当攻击者只能访问数据,但没有关于模型的足够信息时,就会发生这种攻击。当数据成为目标时,通常有两种设置。
模型中毒
** 无监督的特征分析方法仍然可以从数据中获得有用的信息,而不需要任何训练方法的知识。即使在数据上有一个小的扰动,它也会使一般的训练方法停止工作。此外,后门攻击是另一个相关的热点话题,攻击者只在数据集中注入对抗信号,但不破坏常规样本上的模型性能。
统计信息
除了使用数据来训练模型之外,在许多研究中,研究人员使用来自图形数据的统计结果或模拟结果。在这种情况下,攻击者可以基于捕获图形数据上有价值的统计信息来破坏模型。
例如,通过基于结构信息和分析修改不同社区之间的几条边,可以使社区在这种攻击下计数不准确。
** 攻击知识
攻击者会收到不同的信息来攻击系统。基于此,我们可以描述现有攻击的危险级别。
白盒攻击。
在这种情况下,攻击者可以获得所有信息,并利用这些信息攻击系统,如预测结果、梯度信息等。
如果攻击者没有首先完全破坏系统,攻击可能不起作用。
灰箱攻击
攻击者获得有限的信息来攻击系统。与白盒攻击相比,它对系统更危险,因为攻击者只需要部分信息。
黑盒攻击
在这种设置下,攻击者只能对某些样本进行黑盒查询。因此,攻击者一般不能对训练好的模型进行中毒攻击。然而,如果黑盒攻击能够奏效,与其他两种攻击相比,这将是最危险的攻击,因为攻击者可以用最有限的认知攻击模型。
现有的大多数论文只研究图的白盒攻击,有很多机会用不同的知识水平来研究其他攻击。
进攻目标
一般来说,攻击者想要破坏整个系统的性能,但有时他们更喜欢攻击系统中几个重要的目标实例。基于攻击的目标,我们有:
可用性攻击
可用性攻击的敌对目标是降低系统的整体性能。例如,通过给定一个修改预算,我们希望系统的性能降低最多,作为最优攻击策略。
完整性攻击
完整性攻击的敌对目标是降低目标实例的性能。例如,在推荐系统中,我们希望模型(不能成功预测两个目标用户之间的隐藏关系)。但是,系统的总体性能与原系统相同或相似。
在定位攻击设置下,可用性攻击比完整性攻击更容易检测。
因此,有意义的可用性攻击研究一般是在规避攻击的背景下进行的。
攻击任务
对应于图形数据上的各种任务,我们展示了如何攻击每个任务,并通过修改统一的公式来解释大意。
节点相关的任务
如前所述,大多数攻击论文关注节点级 任 务 , 包 括 节 点 分 类和节点嵌入。主要区别在于,节点嵌入使用每个节点的低维表示来进行对抗攻击。
数学上,通过将ci 设置为** Eq 中节点目标的表示。我们有一个针对节点相关任务的对抗攻击的通用公式。
链接相关任务
其他几个现有的工作研究节点嵌入或拓扑相似性并将其用于链路预测。与节点分类相比,链路预测需要使用不同的输入数据,其中 ci代表链路目标,即,。一对节点的信息通过将 ci 设置为链接目标和等式中 yi ∈ [0,1]的表示**,我们有一个针对链接相关任务的对抗攻击的通用公式。
图形相关任务
与节点分类相比,图分类需要图表示,而不是节点表示。
通过将 ci 设置为等式中图形目标的表示。我们有一个对抗攻击图形相关任务的通用公式。
图神经网络 ,目前大多数作品的局限性总结如下。现有的大多数作品在实际应用中没有给出关于预算和距离设置的非常明确的策略和合理的解释。
图防御
利用图形数据,最近对对抗攻击的深入研究也引发了对抗防御的研究。在这里,我们调查了这方面的现有工作,并将其分为两个流行的类别:对抗训练和攻击检测。在它们之后,我们使用一个额外的“其他方法”小节来总结不属于这两个通用类别的剩余方法。
对抗训练
虽然对抗训练已经被攻击者广泛用于执行有效的对抗入侵,但防御者也可以使用同样的入侵来提高他们对抗对抗攻击的模型的健壮性。在图的设置中,我们通过稍微修改我们对抗攻击的统一公式来制定对抗防御的目标,如下
其中符号的含义与图攻击一节中的定义相同。这个想法是在训练过程中交替优化两个相互竞争的模块,攻击者试图通过产生对抗来最大化面向任务的损失。
基于图形数据的对抗防御工作总结(时间递增)。
图上的扰动,防御者试图通过在生成的对抗扰动下学习更鲁棒的图模型参数 θ 来最小化相同的损失。这样,学习的图模型有望抵抗未来的敌对攻击。
结构扰动
扰乱图形的最早和最原始的方法是随机丢弃边。这种廉价对抗扰动的联合训练显示出略微提高了标准GNN 模型对图形和节点分类任务的鲁棒性。更进一步,提出了一种基于投影梯度下降的拓扑攻击生成方法来优化边扰动。拓扑攻击被证明在不牺牲原始图的节点分类精度的情况下,提高了对抗训练的 GNN 模型对不同的基于梯度的攻击和贪婪攻击的鲁棒性。同时, 提出通过最大化嵌入空间中随机噪声的影响以无监督的方式学习扰动,这提高了DeepWatch在节点分类上的泛化性能。对于基于相似性的链接预测, 形式化了贝叶斯斯坦克尔伯格游戏,以优化最鲁棒的链接,从而在对手删除剩余链接的情况下保留。
属性扰动 除了链接,还扰乱节点特征,以实现虚拟对抗训练,增强原始节点和对抗节点之间的平滑性。
特别地, 设计了一个动态正则化器,迫使 GNN模型学习防止图中扰动的传播,而在其最敏感的方向上平滑 GCN,以提高泛化能力。
进一步批量进行虚拟对抗训练,以感知每个采样子集中节点之间的连接模式。 利用对抗式对比学习来解决 GNN 模型由于训练数据稀缺而易受对抗式攻击的弱点,并应用条件遗传神经网络来利用图级辅助信息。
建议忽略离散性,直接扰动邻接矩阵和特征矩阵,而不
是逼近离散图空间,
建议关注 GNN 模型的第一隐藏层,以连续扰动邻接矩阵和特征矩阵。
这些框架都是为了改进节点分类任务的 GNN 模型。
面向攻击的扰动基于 FGA和内塔克的现有网络对抗攻击方法
设计了具有附加平滑防御策略的对抗训练流水线。
该流水线被示为针对节点分类和社区检测任务上的不同对抗攻击来改进 GNN 模型。
采用强化学习来训练针对文中提出的混合攻击的鲁棒检测器。
攻击检测
在数据已经被污染的假设下,另一种有效的防御方法是检测和移除(或减少)攻击的影响,而不是在训练期间产生对抗性攻击。
由于图形数据的复杂性,连接结构和辅助功能可以基于各种特别但直观的原则来利用,以从本质上区分干净数据和有毒数据,并打击某些类型的攻击。
图预处理
基于图生成模型、链接预测和异常检测,提出了检测潜在恶意边的不同方法。
提出基于在随机绘制的节点子集上计算的图感知标准,过滤掉被异常节点污染的集合,而不是边;
基于对节点和它们的邻居的邻近分布之间的差异的经验分析,提出检测受到拓扑扰动的节点(特别是由内塔克[145]提出的)。
这些模型仅依靠网络拓扑进。
行攻击检测
在属性图上,基于攻击者更喜欢添加边而不是移除边,并且边经常在不同的节点之间添加的观察,提出计算雅克卡相似度以移除可疑节点之间的可疑边。
从中毒的训练数据中采样子图,然后采用异常值检测方法来检
测和过滤对立边缘。所有这些模型都可以在训练像 GNNs 这样
的正常图模型之前用于图预处理。
模型培训
一些作品设计了特定的注意力机制,在训练过程中动态地发现和降低可疑数据的权重,而不是在训练前直接检测可疑节点或边缘。
假设敌对节点具有较高的预测不确定性,并基于基于高斯的 GCN 中的嵌入方差计算关注权重。
建议基于内塔克生成的基本事实中毒链接训练具有攻击意识的 GCN,并基于元学习将分配小注意力权重的能力转移到中毒链接。
鲁棒性认证
与检测攻击相反,设计了鲁棒性证书来测量对抗扰动下单个节点的安全性。
特别地, 考虑结构扰动, 考虑属性扰动。
结合这些证书对 GNN 模型进行培训,可以为更多节点提供严格的安全保障。
从不同的角度来看,
推导了结构扰动下社区检测方法的鲁棒性证明。
证明了多项式谱图滤波器在结构扰动下是稳定的。
复杂图超越传统的同构图,
研究了知识图链接预测模型对敌对事实(链接)和事实识别的敏感性。 ]研究了异构图中中毒节点的检测,以增强 Android 恶意软件检测系统的鲁棒性。
其他方法
现在我们总结一下剩下的既不是基于对抗训练也不是针对攻击检测的图对抗防御算法。我们根据它们对图形数据和图形模型的修改将它们进一步分为三个子类别。
数据修改
我们已经提出了几种可用于修改图数据的攻击检测算法,即,图预处理。
存在修改图数据而不直接检测攻击的方法。
基于内塔克[145]只影响图的高阶奇异分量的观点,
[36]提出在训练 GNN 模型之前通过计算图的低阶近似来降低攻击的影响。
[42]提出了一种增强的训练过程,通过生成更多结构上有噪声的图来训练 GNN 模型以提高鲁棒性,并表明它对于节点的结构角色识别是有效
的。
[77]分析了图的拓扑特征,并提出了两种训练数据选择技术,以提高对节点分类的有效对抗扰动的难度。这些方法都是单独基于图拓扑的,它们只修改图数据,而不修改图模型。
[135]利用变分图形自动编码器从扰动图形中重构图形结构,重构的图形可以减少敌对扰动的影响。
模型修改
相反,存在仅修改图模型的方法,例如模型结构重新设计或损失函数重新设计。
最简单的方法就是重新设计损失函数。
从几个现有的工作,结果表明,一些损失函数表现出更好的性能对抗的例子。
例如, [57]设计了一种基于图形驱动的替代算子,用改进的谱稳健性代替 GNN 模型中的经典拉普拉斯算子.
他们证明了这种算子与普通 GCN 算子的结合在节点分类和防御规避攻击方面是有效的。
[81]提出了一个分层的 GCN 模型来聚合来自不同顺序的邻居,并在聚合过程中随机丢弃邻居消息。这种机制可以提高基于 GCN 的协同过
滤模型的鲁棒性。
[138]介绍了邻居重要性估计和可与GNNs集成的分层图形存储组件。这两个部分可以帮助增强 GNN 模型对各种攻击的鲁棒性。
混合修改
更进一步,一些方法修改图形数据和图形模型。
[53]设计了一种边缘抖动方法来恢复具有多个随机边缘翻转图的未受干扰的节点邻域,并提出了一种学习组合多个图的自适应 GCN 模型。该框架提高了 GCN 算法对属性图上节点分类(特别是蛋白质功能预测)的性能和鲁棒性。
[76]提出了一种基于节点的度和连接模式迭代选择训练数据的启发式方法。他们进一步提出将节点属性和结构特征结合起来,用 SVM 代替任何 GNN 模型进行节点分类。在像稀疏性、等级和特征平滑性这样的图属性的指导下,
[59]提出了联合学习干净的图结构和一起训练健壮的 GNN 模型的亲 GNN
总结:图形防御
从防御者的角度来看,可以在知道或不知道具体攻击的情况下设计防御方法。
因此,目前的防御工作可以分为两类:
(1)攻击不可知的防御旨在增强图形模型对任何可能的攻击的鲁棒性,而不是固定的攻击。
(2)面向攻击的防御是根据特定攻击的特点设计的。
与面向攻击的攻击相比,与攻击无关的防御通常具有更大的攻击假设空间。
与攻击无关的防御
它通常在图形或模型上产生简单的扰动来训练防御模型。
在测试阶段,以这种方式训练的一些模型可以表现出对这些扰动的良好鲁棒性。
以这种方式训练的一些方法甚至获得了针对其他特定攻击的良好防御性能,
请注意,防御方法是在不知道其他新攻击的情况下设计和训练的。
除了对抗训练,其他工作通过对攻击策略和结果的启发式
假设来保护图模型。 [99]假设有未受污染的图表来帮助检测攻
击。 [50], [54], [57], [144]提出了新的 GNN 体系结构来增强
它们的健壮性。 [76], [77]直接策划最佳训练集,以减轻训练
模型的脆弱性。
面向攻击的防御
面向攻击的防御是基于特定攻击的策略和方法而设计的。也就是说,防御者完全了解攻击方法,并且防御方法可以检测到相应的攻击或抑制其性能。在目前的防御工程中, [36]首先论证了内塔克的弱点[145],并利用 SVD防御内塔克。 [56]分析了内塔克[145]和 RL-S2V [28]的策略和方法,并提出了一种对抗性训练方法。
[120]检查两种基于梯度的攻击(即。 FGSM [45]和 JSMA [80]),并在模型训练期间应用边缘丢弃技术来减轻这种攻击的影响。类似于攻击不可知的防御,一些面向攻击的方法表现出良好的可发生性,这意味着它可以防御其他未知的攻击。
例如,[120]中提出的防御方法也可以防御内塔克。连同科雷普。 表
3 的攻击栏,我们可以看到 Nettack 和 RL-S2V 已经成为防御设计和评估的基准攻击方法。 一些作品采用极小极大博弈[43]或最优化[9], [55], [148]的框架来证明给定攻击和防御下图型的鲁棒性界限。这种防御工程是面向攻击的,因为它们假设了特定的攻击。
局限性和未来方向
我们一直在关注不同现有作品对图形对抗防御的贡献。现在,我们总结了我们在这一研究领域观察到的一些常见限制,并对未来的方向提出了建议:
(1)大多数防御模型侧重于节点级任务,特别是节点分类,而更多地关注链路和图形级任务,如链路预测和图形分类,可能会很有趣。在更现实的任务中也有很大的潜力,如基于图形的搜索、推荐、广告等。
(2)虽然现在网络数据通常与复杂的内容相关联(例如,。时间戳、图像、文本),现有的防御模型很少考虑动态或其他内容丰富的复杂网络系统环境下的攻击和防御效果。
(3)大多数防御模型与 GNNs 或 GCN 特别相关,但还有许多其他图形模型和分析方法,可能使用更广泛,研究更少(例如。基于随机行走的模型、随机块模型和许多计算图形属性)。
他们对图形对抗攻击有多敏感和倾向?
GNN 模型的改进能否转移和推广到这些传统的方法和措施?
( 4)现有的大部分工作都没有研究防御模型的效率和可扩展性。正如我们所知,现实世界的网络可能是巨大的,并且经常不断演变,因此如何有效地学习模型并适应变化对维护者来说非常重要。
( 5)虽然对于下游任务(如节点分类和链路预测)有标准的评估协议和优化目标,但防御方法是针对不同的目标(如准确性、健壮性、通用性等)进行优化的,并且它们倾向于定义自己的实验设置和度量标准,从而使公平和全面的评估具有挑战性。
度量
在本节中,我们总结了用于评估图形数据的攻击和防御性能的指标。我们首先简要介绍了一般的评估指标,以及它们在对抗式绩效评估中的具体用法。然后,我们详细介绍了为攻击和防御设计的特定评估指标。
通用度量
基于精度的度量
许多现有的工作处理节点分类问题,这通常是一个二进制或多类分类问题。基于准确度的度量,如准确度、召回率、精确度和 F1 分数,都被现有的作品用来从不同的角度反映分类的准确性。
注意, [27], [103]使用的假阴性率(FNR)和假阳性率(FPR)是从混淆矩阵导出的两个度量。
FNR 是所有实际阳性实例中假阴性的百分比,它描述了分类器遗漏阳性实例的比例
FPR 反映了被分类器错误分类的负面实例的比例。
调整后的兰德指数(ARI) [117]是一个基于准确性的指标,没
有标签信息。
[19]用它来衡量图中两个聚类之间的相似性。
除了上述指标,ROC 曲线下面积(AUC)[118]和平均精度[111]被广泛使用,如[52], [92], [109],[127], [144]。
** AUC 对正实例的概率排名敏感,根据分类器的预测概率**,当正实例的排名高于负实例时, AUC 更大。当查全率从 0 增加到 1 时,查准率越高,则查准率越高.这两个指标可以更好地反映分类性能,因为它们提供了对所有实例的预测概率的全面评估。
基于排名的指标
平均倒数排名(MRR)[113]和Hits@K 是[83], [136]用来评估知识图上链接预测性能的两个排名指标。
给定检索到的关于查询的项目列表,并根据它们的概率进行排名,查询响应的倒数排名是第一个正确项目的排名的乘法倒数:第一名为 1,第二名为 1/2,第三名为 1/3,依此类推。 Hits@K 是排名榜前 K项中正确答案的数量。
它也可以用来评估推荐系统的性能[39]。
nDCG@K [116]是评价推荐模型稳健性的另一个度量标准[81]。
基于图的度量
基于图的度量指示图形的特定属性。 归一化互信息(NMI)[115]和模块化[114]是[18]、 [19]、 [129]用来评估社区检测性能的两个指标(即聚类)。
NMI 起源于测量两个变量之间相互依赖性的信息论。在社区检测场景中, NMI 用于测量共享信息量(即,。相似性)。
模块化设计用于衡量将图形划分成簇的强度。模块化程度高的图在簇内的节点之间有密集的连接,但在不同簇内的节点之间有稀疏的连接。
[93]使用几个图属性统计数据作为度量标准来评估攻击者改变图的程度
(即攻击的不可察觉性)。这些指标包括基尼系数、特征路径长度、分布熵、幂律指数和三角计数。
有关这些指标的更多详细信息,请参考[10]。一些更多的图统计12指标包括度排序、接近度排序、 [108]使用的介数排序和[128]使用的聚类系数、最短路径长度、对角线距离。
通用指标
成功攻击率(ASR)
是衡量给定攻击方法性能的最常用指标:
分 类 边 际(CM)
CM 测量完整性攻击的性能
t 是目标实例,
ct 是 t 的基本真实类,
pt,c 是 t为 c 的概率。
上述等式计算了基本真实类的概率与其他类的概率之间的最大差异。
换句话说,它显示了攻击翻转目标实例的预测类的程度。 [76]提出了另一种版本的CM:
当实例分类正确时, CM 为正;否则它将是负的。
正确/错误分类率
这两个指标基于所有实例的分类结果来评估攻击/防御性能
(#)分类错误的实例
(#)所有实例
攻击者预算
攻击者预算是衡量攻击者实现其目标所需的最小干扰的通用指标。
较低的值分别表示较好的攻击性能和较差的防御性能。
[33]将移除的边数作为攻击者的预算。
[76], [77]以攻击者成功导致目标被误分类为预算的最小扰动数。
平均修改链接数(AML)
AML是上述对手预算的一种变化。
它描述了攻击者为达到攻击目标所需的平均修改链接数:
(#)修改的链接
(#)所有攻击
隐蔽措施
隐藏措施用于评估在图中隐藏节点或社区的性能。
从另一个角度来看,攻击引入的结构变化也可以用来量化攻击的隐蔽性
相似性评分
相似性分数是衡量给定实例对的相似性的一般度量。
它可以用作完整性攻击的目标,攻击者的目标是增加或减少目标实例对的相似性分数。对于图中的节点实例,其局部结构和节点嵌入都可以用来计算相似性得分。
唯一指标平均最坏情况保证(AWM)
最坏情况裕度是上面定义的分类裕度的最小值。平均最差情况裕度是指该值在每批数据的最差情况裕度上取平均值。
鲁棒性优点(RM)
RM 是所提出方法的攻击后精确度和普通 GCN 模型的攻击后精确度之间的差异。值越大,表示防御性能越好。
攻击恶化(AD)
AD 是攻击后准确度降低量与未攻击时准确度的比值
平均防御率(ADR)
ADR是根据上面定义的ASR评估防御性能的指标。
它比较了有或没有应用防御方法的攻击后的 ASR。
平均置信差异 ACD
是一种基于一组节点攻击前后分类裕度的平均差异来评估防御性能的度量。这样的一组节点包括攻击前正确分类的节点。
损害预防率(DPR)
损害预防衡量防御可以预防的损害量。
设 L0 为防守者在没有进攻时的累计损失。
让 LA 成为防守者无法进行任何可靠查询的情况下,防守者在某种攻击 A 下的损失。
LD 表示防守者按照一定的防守策略 d 进行可靠的查询时的损失。 DPR 可以定义如下:
认证精度
提出了一种针对对抗攻击的鲁棒社区检测模型的认证方法。
认证精度 CK(l)是当攻击者在图中添加或移除最多l条边时,所提出的方法在同一社区中可证明检测到的受害节点集的分数。
实际效果
由于攻击者可能以提高物品收入或声誉等攻击的实际效果为目标, 提出了一个基于收入的指标,从实际角度衡量攻击和防御的性能。