这篇论文更全面地研究了Membership Inference Attack在各种scenario下的表现,提出了三种情形下的adversary,通过实验论证membership得以attack的本质原因在于模型的overfitting,并据此提出了dropout和model stacking两种defense methods,在一定程度上减少了模型的overfitting,抵御了attack,下面分别介绍三种adversary的scenario和具体的攻击算法。
Adversary 1
第一种情形假设adversary具有和target model训练集同分布的,这也就是membership attack刚被提出时的重要假设。Adversary首先利用
训练得到shadow model模仿target model的行为,再利用shadow model的输出posterior probability来训练一个二分类器,也就是attack model。注意到target model对于训练集中的数据会由较高的置信度,于是我们只需取posterior中最高的三位作为feature即可实现准确度相当高的attack。另外,实验证明,这里的shadow model的模型结构可以不与target model相同,例如同为CNN网络,shadow model可以具有不同的卷积核大小,但如果两者不属于同一类型的模型,性能则会有显著的下降(例如target model为random forests,shadow model为neural network)。作者提出了一种解决方法,即训练多个不同类型的shadow model,训练attack model时同时对多个模型的输出训练,可以有效提升性能。
Adversary 2
第二种情形假设Adversary并不拥有,而且也不知道target model的模型细节,但攻击算法仍和第一种相同,实验证明,这仍能取得不错的效果,原因主要在于即便对于不同的模型,不同的数据集,membership的性质仍然成立,也就是对于训练集中的数据,模型会给出较高的置信度,攻击算法只取模型输出中最大的三位作为feature,使得攻击有较好的泛化性,实现了data transferring attack。
Adversary 3
第三种情形并不训练shadow model,直接根据模型输出的最大值进行分类,只要大于某一个阈值,则认为是在训练集中。阈值的选取比较tricky,首先随机生成若干样本,将target mode输出的最大值进行排序,取前t%(实验证明t为10)的值作为阈值。我们可以假定训练集数据以一定概率分布在整个样本空间中,进行随机采样后大约有t%的样本属于训练集,实验证明对于部分数据集,例如CIFAR100,攻击算法有不错的性能保证。
Defense Methods
Defense Methods主要从减小模型的overfitting出发,作者利用dropout(一种经典的正则化方式)和model stacking(经典的模型集成算法)进行实验,取得了一定的防御效果,这也进一步论证了membership inference attack和模型的overfitting密切相关。
总结
通过研究不同情形下的membership inference attack,我们可以发现通过置信度的高低即可作出非常准确的判断,但仍然留下了一些问题,首先被攻击的模型大多为浅层神经网络,它们在训练集和测试集上的表现差异非常明显,test accuracy远远低于training accuracy,作者并没有在例如VGG16,ResNet等深度神经网络上进行攻击。另外模型的过拟合与攻击性能的关系并没有得到数学上的证明,我认为相关的实验缺乏对不同模型表现的对比,所提出的defense methods也并不完全适用于深度神经网络。
论文地址:https://arxiv.org/abs/1806.01246