Top-Down Specialization for Information and Privacy Preservation

发表于ICDE 2005

摘要：在最特定的状态下发布特定于人的数据会对个人隐私构成威胁。本文提出了一种实用且有效的算法，用于确定掩盖敏感信息的数据的通用版本，并且仍然可用于建模分类。数据的概括是通过以自上而下的方式专门化或详细说明信息的水平来实现的，直到违反最低隐私要求。这种自上而下的专业化对于处理分类和连续属性是自然而有效的。我们的方法利用了数据通常包含用于分类的冗余结构的事实。虽然泛化可能会消除某些结构，但其他结构也会有所帮助。我们的结果表明，即使对于高度限制性的隐私要求，也可以保持分类质量。这项工作非常适用于共享信息以实现互利和生产力的公共和私营部门。

1.简介

当今全球网络系统中的数据共享对个人隐私和组织机密性构成威胁。萨马拉蒂[9]的一个例子表明，将药物记录与选民名单联系起来可以唯一地识别一个人的姓名和她的医疗信息。作为回应，最近在许多国家实施了新的隐私法案和立法。 2001年，加拿大发布了“个人信息保护和电子文件法”[11]，以保护广泛的信息，例如年龄，种族，收入，评估，甚至购买商品或服务的意图。这些信息涵盖了许多数据库的很大一部分。政府机构和公司必须在三年内修改其系统和做法，以完全遵守该法案。

考虑一个关于诊断，邮政编码，出生日期和性别的患者信息的表格T. 如果关于（邮政编码，出生日期，性别）的描述如此具体以至于没有多少人匹配它，则释放该表将导致将唯一或少数个人与诊断信息链接。即使敏感属性（如诊断）未包含在要发布的表中，但包含在外部源中，它们也可以链接到识别属性（邮政编码，出生日期，性别）[9]。

假设必须将Zip码，出生日期，性别和诊断信息发布给某些健康研究机构用于研究目的。我们仍然可以通过用不太具体但语义一致的描述替换特定描述来保护隐私。此操作称为泛化。例如，通过将Birthdate替换为Birthyear（或用间隔替换特定年龄值），更多记录将匹配（Zip代码，Birthyear和Sex）上的描述，使描述更少识别。前提是表T仅包含所有个体的子集。如果描述不那么具体，那么T内外的更多个体将匹配它，这使得很难判断匹配的个体是否实际上具有T中记录的诊断。

保护隐私是研究的一个方面。研究的另一方面是使发布的数据对数据分析有用。这两个目标可以同时实现吗？在本文中，我们想回答这个问题，使用数据进行分类。我们的见解是，这两个目标实际上是处理两种类型的信息：隐私目标需要掩盖敏感信息，通常是识别个人的特定描述，而分类目标需要提取捕捉趋势和模式的一般结构。如果“仔细”执行概括，则可以屏蔽识别信息，同时仍保留用于分类的趋势和模式。我们的实验结果支持这种见解。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,635评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,628评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,971评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,986评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,006评论 6赞 394
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,784评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,475评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,364评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,860评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,008评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,152评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,829评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,490评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,035评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,428评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,127评论 2赞 356

Top-Down Specialization for Information and Privacy Preservation

推荐阅读更多精彩内容