读《A Utility-aware Visual Approach for Anonymizing Multi-attribute Tabular Data》By 李彬

文章名：A Utility-aware Visual Approach for Anonymizing Multi-attribute Tabular Data

（用于多属性表格数据匿名化的效用性感知可视方法）

期刊：IEEE Transactions on Visualization and Computer Graphics

随着技术的进步，组织和企业可以轻松地从用户/客户那里收集大量数据，并通过数据属性之间的相关性做出更好的决策。例如，分析一组患者的医疗记录可能有助于提高诊断和治疗的准确性。当对外部用户（例如协作者）公开数据集时，由于暴露敏感信息具有暴露的风险，通常会有所限制的分享数据，影响数据的效用性。因此在对敏感信息进行隐私保护的同时，需要权衡考虑数据的效用性。这篇文章针对该问题提出了一个可视化的方法，能有效的解决隐私保护和有效性之间的权衡问题。

文章提出了可视化的界面以及一个隐私保护的流程。文章提出的可视化方法允许用户交互式地、迭代地解决隐私问题，同时还能考虑到数据效用性，文章的主要贡献为：本文将句法匿名模型（Syntactic Anonymity models）的本质集成到隐私暴露风险树（Privacy Exposure Risk Tree，PER-Tree）中，并对原始句法匿名模型进行了扩展；文章还提供了一种匹配的设计，称为效用保护度矩阵（Utility Preservation Degree Matrix，UPD-Matrix），它为用户提供了可视化的反馈，说明在应用隐私保护操作时，效用是如何改变的。

文章提出了一个5步的流程，具体包括：（1）装载数据，（2）构建隐私暴露风险树，（3）调整PER-Tree和观察UPD-Matrix，（4）检测效用性，（5）输出数据。下面进行具体介绍：

（1）装载数据：

加载数据时，用户需要决定两件事：1）该属性是否应该参与分析？2）该属性是一个需要隐私保护的敏感属性吗？图1加载的数据中，Name属性对分析结果不构成影响，是不需要参与分析的属性；Expense属性是一个需要隐私保护的敏感属性。

图1 数据加载

（2）构建隐私暴露风险树（PER-Tree）：

一旦数据加载完成，用户就可以通过三个子步骤构建PER-Tree。首先，对每个维度进行分类或聚合，以便进一步分析或探索。接下来，用户可以自由地切换要呈现在PER-Tree中的属性的顺序。将属性放置到树的较高级别减少与其相关联的边的数量，从而导致较少的混乱，文章建议始终将敏感属性放在树的最底层，以避免进一步的混淆。构建PER-Tree的最后一步是设置语法隐私模型的标准值，以便检测到每个维度的隐私问题以及树的各个级别。

首先要了解句法匿名模型，主要包括（1）K-anonymity每个等价类中数据项的数量，（2）L-diversity每个等价类中敏感属性按值分类个数，（3）T-closeness敏感属性各个值的分布情况。

使用一个示例数据集，如图2所示，以演示如何构建一个PER-Tree。假设数据集有两个属性：性别和职业，他们的属性值分别是[男，女]和[教师，学生，其他]。然后，我们将属性顺序设置为性别，然后是职业。从图3（b）可以看出，树的顶层包含两个节点：男（M）和女（F）。每个顶级节点都有三个边缘链接到第二个级别的节点，对应三个不同的值：教师（T），学生（S）和其他（O）。每个节点进一步分为两种类型的子节点。一个称为“Prop-node”，它从其父节点继承的隐私信息，节点用灰色表示，使用透明度编码该节点的隐私暴露风险，颜色越深表示隐私暴露风险越高。另一个是“Attr-node”，它存储属性特定的隐私信息，k-anonymity用蓝色条表示，L-diversity用绿色条表示，t-closenese用橙色条表示，三种隐私信息均用透明度编码值的大小。在图3（c）中，我们使用“老师”节点作为示例，并突出显示其相关的支持节点和Attr节点。

图2 构建隐私暴露风险树

（3）调整PER-Tree和观察UPD-Matrix

在构建PER-Tree之后，下一步是查看数据并进行必要的调整，以便在数据隐私和实用程序之间达到更好的平衡。首先是调整的模型，文章提供了两个选择，一个是基于语法匿名模型的聚合操作，一个是基于差分隐私模型的添加噪点操作。

聚合操作如图3所示，用户将男性老师和男性学生节点进行了合并，随后在PER-Tree中创建了一个新节点，男性老师或者学生，这样有利于减少男性老师和学术隐私的暴露风险。

图3 基于语法匿名模型的聚合操作

添加噪点操作如图4所示，差分隐私模型为数据添加随机噪声，使得数据值仍然是值而不是范围。但是这个值不是准确的原始值。此外，在添加基于隐私模型的噪声之后，属性值的分布将保留，因此效用性改变不会很大。

图4基于差分隐私模型的噪声添加

用户有两种方法来解决隐私问题。那么，如何选择更好的一个？我们设计了第二个视图，称为效用性保存度矩阵，也可以称之为UPD-Matrix。这种视图将有助于用户监控效用的波动，它可以在隐私保护过程中给出实时反馈，它与各种数据格式兼容。

如图5所示，UPD-Matrix由三部分组成，对角线单元格显示每个统计维度的直方图，矩阵的上三角形和下三角形分别显示原始数据和处理数据的所有对分布。

图5 效用保护度矩阵

大家可能会注意到UPD-Matrix中各个联合分布的视觉表达并不统一，总共分为五种，如图6所示。我们使用散点图来描述原始数据的准确性，我们根据数据类别的不同设计了三种不同的原始数据散点图。针对合并后的数据，因为值被聚合到范围内，我们使用矩阵表示。

图6 UPD-Matrix中不同类型数据的分布表达

（4）检测效用性：

本文设计了两种效用性度量的方法，一个是在数据聚合级别测量效用性，是通过UPD-Matrix顶部的数值对显示的，如图7所示，0.93表示原始数据的效用性，-0.06表示效用度的改变量。这种表示有时不能直观的反应效用的变化，为此文章为用户选择的属性提供详细的效用性比较视图如图8所示。在该视图中，用户可以检查在数据级别之前和之后的数据操纵之间的属性的分布之间的差异。

图7 UPD-Matrix中数据聚合级别效用性测量

图8 详细的效用性比较视图

（5）输出数据：

最后，可以以可视化形式或文本数据形式输出数据，如图9所示：

图9 数据输出

文章原作者：王叙萌等

笔记撰写人：李彬

整理：张宇鸿

最后编辑于：2017.12.10 13:47:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 221,635评论 6赞 515
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,543评论 3赞 399
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 168,083评论 0赞 360
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,640评论 1赞 296
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,640评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,262评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,833评论 3赞 421
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,736评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,280评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,369评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,503评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,185评论 5赞 350
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,870评论 3赞 333
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,340评论 0赞 24
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,460评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,909评论 3赞 376
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,512评论 2赞 359

读《A Utility-aware Visual Approach for Anonymizing Multi-attribute Tabular Data》By 李彬

推荐阅读更多精彩内容