文章名:A Utility-aware Visual Approach for Anonymizing Multi-attribute Tabular Data
(用于多属性表格数据匿名化的效用性感知可视方法)
期刊:IEEE Transactions on Visualization and Computer Graphics
随着技术的进步,组织和企业可以轻松地从用户/客户那里收集大量数据,并通过数据属性之间的相关性做出更好的决策。例如,分析一组患者的医疗记录可能有助于提高诊断和治疗的准确性。当对外部用户(例如协作者)公开数据集时,由于暴露敏感信息具有暴露的风险,通常会有所限制的分享数据,影响数据的效用性。因此在对敏感信息进行隐私保护的同时,需要权衡考虑数据的效用性。这篇文章针对该问题提出了一个可视化的方法,能有效的解决隐私保护和有效性之间的权衡问题。
文章提出了可视化的界面以及一个隐私保护的流程。文章提出的可视化方法允许用户交互式地、迭代地解决隐私问题,同时还能考虑到数据效用性,文章的主要贡献为:本文将句法匿名模型(Syntactic Anonymity models)的本质集成到隐私暴露风险树(Privacy Exposure Risk Tree,PER-Tree)中,并对原始句法匿名模型进行了扩展;文章还提供了一种匹配的设计,称为效用保护度矩阵(Utility Preservation Degree Matrix,UPD-Matrix),它为用户提供了可视化的反馈,说明在应用隐私保护操作时,效用是如何改变的。
文章提出了一个5步的流程,具体包括:(1)装载数据,(2)构建隐私暴露风险树,(3)调整PER-Tree和观察UPD-Matrix,(4)检测效用性,(5)输出数据。下面进行具体介绍:
(1)装载数据:
加载数据时,用户需要决定两件事:1)该属性是否应该参与分析?2)该属性是一个需要隐私保护的敏感属性吗?图1加载的数据中,Name属性对分析结果不构成影响,是不需要参与分析的属性;Expense属性是一个需要隐私保护的敏感属性。
(2)构建隐私暴露风险树(PER-Tree):
一旦数据加载完成,用户就可以通过三个子步骤构建PER-Tree。首先,对每个维度进行分类或聚合,以便进一步分析或探索。接下来,用户可以自由地切换要呈现在PER-Tree中的属性的顺序。将属性放置到树的较高级别减少与其相关联的边的数量,从而导致较少的混乱,文章建议始终将敏感属性放在树的最底层,以避免进一步的混淆。构建PER-Tree的最后一步是设置语法隐私模型的标准值,以便检测到每个维度的隐私问题以及树的各个级别。
首先要了解句法匿名模型,主要包括(1)K-anonymity每个等价类中数据项的数量,(2)L-diversity每个等价类中敏感属性按值分类个数,(3)T-closeness敏感属性各个值的分布情况。
使用一个示例数据集,如图2所示,以演示如何构建一个PER-Tree。假设数据集有两个属性:性别和职业,他们的属性值分别是[男,女]和[教师,学生,其他]。然后,我们将属性顺序设置为性别,然后是职业。从图3(b)可以看出,树的顶层包含两个节点:男(M)和女(F)。每个顶级节点都有三个边缘链接到第二个级别的节点,对应三个不同的值:教师(T),学生(S)和其他(O)。每个节点进一步分为两种类型的子节点。一个称为“Prop-node”,它从其父节点继承的隐私信息,节点用灰色表示,使用透明度编码该节点的隐私暴露风险,颜色越深表示隐私暴露风险越高。另一个是“Attr-node”,它存储属性特定的隐私信息,k-anonymity用蓝色条表示,L-diversity用绿色条表示,t-closenese用橙色条表示,三种隐私信息均用透明度编码值的大小。在图3(c)中,我们使用“老师”节点作为示例,并突出显示其相关的支持节点和Attr节点。
(3)调整PER-Tree和观察UPD-Matrix
在构建PER-Tree之后,下一步是查看数据并进行必要的调整,以便在数据隐私和实用程序之间达到更好的平衡。首先是调整的模型,文章提供了两个选择,一个是基于语法匿名模型的聚合操作,一个是基于差分隐私模型的添加噪点操作。
聚合操作如图3所示,用户将男性老师和男性学生节点进行了合并,随后在PER-Tree中创建了一个新节点,男性老师或者学生,这样有利于减少男性老师和学术隐私的暴露风险。
添加噪点操作如图4所示,差分隐私模型为数据添加随机噪声,使得数据值仍然是值而不是范围。但是这个值不是准确的原始值。此外,在添加基于隐私模型的噪声之后,属性值的分布将保留,因此效用性改变不会很大。
用户有两种方法来解决隐私问题。那么,如何选择更好的一个?我们设计了第二个视图,称为效用性保存度矩阵,也可以称之为UPD-Matrix。这种视图将有助于用户监控效用的波动,它可以在隐私保护过程中给出实时反馈,它与各种数据格式兼容。
如图5所示,UPD-Matrix由三部分组成,对角线单元格显示每个统计维度的直方图,矩阵的上三角形和下三角形分别显示原始数据和处理数据的所有对分布。
大家可能会注意到UPD-Matrix中各个联合分布的视觉表达并不统一,总共分为五种,如图6所示。我们使用散点图来描述原始数据的准确性,我们根据数据类别的不同设计了三种不同的原始数据散点图。针对合并后的数据,因为值被聚合到范围内,我们使用矩阵表示。
(4)检测效用性:
本文设计了两种效用性度量的方法,一个是在数据聚合级别测量效用性,是通过UPD-Matrix顶部的数值对显示的,如图7所示,0.93表示原始数据的效用性,-0.06表示效用度的改变量。这种表示有时不能直观的反应效用的变化,为此文章为用户选择的属性提供详细的效用性比较视图如图8所示。在该视图中,用户可以检查在数据级别之前和之后的数据操纵之间的属性的分布之间的差异。
(5)输出数据:
最后,可以以可视化形式或文本数据形式输出数据,如图9所示:
文章原作者:王叙萌 等
笔记撰写人:李彬
整理:张宇鸿