发表于ICDE 2005
摘要:在最特定的状态下发布特定于人的数据会对个人隐私构成威胁。 本文提出了一种实用且有效的算法,用于确定掩盖敏感信息的数据的通用版本,并且仍然可用于建模分类。 数据的概括是通过以自上而下的方式专门化或详细说明信息的水平来实现的,直到违反最低隐私要求。 这种自上而下的专业化对于处理分类和连续属性是自然而有效的。 我们的方法利用了数据通常包含用于分类的冗余结构的事实。 虽然泛化可能会消除某些结构,但其他结构也会有所帮助。 我们的结果表明,即使对于高度限制性的隐私要求,也可以保持分类质量。 这项工作非常适用于共享信息以实现互利和生产力的公共和私营部门。
1.简介
当今全球网络系统中的数据共享对个人隐私和组织机密性构成威胁。 萨马拉蒂[9]的一个例子表明,将药物记录与选民名单联系起来可以唯一地识别一个人的姓名和她的医疗信息。 作为回应,最近在许多国家实施了新的隐私法案和立法。 2001年,加拿大发布了“个人信息保护和电子文件法”[11],以保护广泛的信息,例如年龄,种族,收入,评估,甚至购买商品或服务的意图。 这些信息涵盖了许多数据库的很大一部分。 政府机构和公司必须在三年内修改其系统和做法,以完全遵守该法案。
考虑一个关于诊断,邮政编码,出生日期和性别的患者信息的表格T. 如果关于(邮政编码,出生日期,性别)的描述如此具体以至于没有多少人匹配它,则释放该表将导致将唯一或少数个人与诊断信息链接。 即使敏感属性(如诊断)未包含在要发布的表中,但包含在外部源中,它们也可以链接到识别属性(邮政编码,出生日期,性别)[9]。
假设必须将Zip码,出生日期,性别和诊断信息发布给某些健康研究机构用于研究目的。 我们仍然可以通过用不太具体但语义一致的描述替换特定描述来保护隐私。 此操作称为泛化。 例如,通过将Birthdate替换为Birthyear(或用间隔替换特定年龄值),更多记录将匹配(Zip代码,Birthyear和Sex)上的描述,使描述更少识别。 前提是表T仅包含所有个体的子集。 如果描述不那么具体,那么T内外的更多个体将匹配它,这使得很难判断匹配的个体是否实际上具有T中记录的诊断。
保护隐私是研究的一个方面。 研究的另一方面是使发布的数据对数据分析有用。 这两个目标可以同时实现吗? 在本文中,我们想回答这个问题,使用数据进行分类。 我们的见解是,这两个目标实际上是处理两种类型的信息:隐私目标需要掩盖敏感信息,通常是识别个人的特定描述,而分类目标需要提取捕捉趋势和模式的一般结构。 如果“仔细”执行概括,则可以屏蔽识别信息,同时仍保留用于分类的趋势和模式。 我们的实验结果支持这种见解。