学合规-美国隐私法案中的去标识化要求

个保法对匿名化的定义是 “是指个人信息经过处理无法识别特定自然人且不能复原的过程”。与此同时，GDPR将匿名数据定义为“与已识别或可识别的自然人的个人数据无关的数据”，即数据主体“不可识别或不再可识别”。也就是说它们要求个人数据在处理后要实现了完全的不可重识别，才能算是非个人数据。通过上一篇文章，我们知道这样的匿名化是一种基本上无法实现的理想状态，没有落地的可能性。

而世界另一端的美国因为鼓励数据流通走了一条不同的路线，我们今天介绍美国隐私法案中数据匿名化的要求。

一、CCPA

加州消费者隐私法案（CCPA）中规定了去标识化的数据就不再属于个人信息，而不是国内的个保法及欧洲的GDPR要求的匿名化。

CCPA中对去标识化的要求，比个保法要更多，它的定义中明确约定

去标识化是指信息无法在合理地被直接或间接的被识别/关联到某个具体的消费者，同时使用去标识化数据的组织

1）实施了技术措施来禁止去标识化数据的再识别；

2）实施了业务流程来禁止去标识化数据的再识别；

3）实施了业务流程阻止去标识化数据的疏忽泄漏；

4）不尝试重新识别去标识化数据

所以，它包含了去标识化这样的数据处理过程，也要求有足够的手段来防止数据再识别（等同于个保法中的“复原”，意指重新连接上或转化出个人身份识别符）。第一点的技术措施应该是指可复原的难度，比如用了2048位的加密算法，暴力破解可行性低。第二和第三点可以通过与合作伙伴的商务合同条款来进行约定，不允许对方进行再识别及大规模披露。第四点更像是主观意愿，应该通过SOP及内部培训来规范。

二、HIPAA

在美国的国家层面的健康医疗安全法案（HIPAA）中，对数据去标识化的定义和要求也是类似的。它明确约定了数据在去标识化后，不再被认为是需要被保护的医疗信息（PHI-Protected Health Information），不再受HIPAA中隐私条款的约束。

图1-HIPAA去标识要求

它提供了两种方式：专家确认法和安全港

1. 专家确认法

通过雇佣相关专家，对数据进行处理，并能证明合理性。

1-专家需在使用统计学或其他科学方法处理数据方面，有足够的知识和经验。

2-专家通过应用数据处理方法，确定处理后的信息被单独或结合其他信息识别出特定个人的风险非常小

3-组织记录这些方法和结果，并证明其合理性

那如何选择专家？HIPAA没有特定的认证计划来制定谁是合格的专家，相关的专业知识应该是通过教育和工作获取，这类专家可以从统计，数学或其他科学领域。从执法角度设计，审计办公室将审查组织所使用的专家的专业经验和学习背景，以及使用PHI去标识化方法的经验。

2. 安全港

安全港的要求是删除明确规定的如下18类个人识别符，且组织认为剩余信息无法用来识别出该信息对应的个人。

1-Names — 姓名

2-All geographic subdivisions smaller than a state — 精确到州以下级别的地址信息

3-Any dates (except year) directly related to an individual — 可直接关联个人的日期数据（精确到年以下）

4-All dates including the year for those over the age of 89 - 可关联到89岁以上人群的日期数据（包括只到具体某一年）

5-Telephone numbers — 电话

6-Vehicle serial numbers and identifiers — 车牌号

7-Fax numbers - 传真

8-Device serial numbers and identifiers — 设备号

9-Email addresses - 邮箱地址

10-Universal resource locators (URLs)

11-Social security numbers — 身份证号

12-Internet Protocol (IP) address — IP

13-Medical record numbers — 医疗纪录编号

14-Biometric identifiers including voice and fingerprints — 生物识别符，包括指纹和声纹

15-Health plan beneficiary numbers — 医疗计划编号/社保卡号

16-Full-face pictures or images - 人脸照片

17-Account numbers — 银行账号

18-Certificate or license numbers — 证书编号

我们可以用这个列表做一个参考，来判断在实际操作中哪类数据字段是要执行去标识化的。第一种是敏感的个人生物信息，指纹/声纹/人脸，这一类高风险的敏感信息在任何场景下，都要考虑第一时间进行加密或去标识化。第二种是强识别符，也就是在各类系统中的唯一编号，社保号是医疗系统的编号，电话号码和手机设备号是通信系统的唯一编号等。第三类是弱识别符，包括姓名，IP，地址等。针对日期数据，可以不做删除，而是进行泛化，把精度保留到年这一个级别。

最后做一个总结：

为了促进数据的流通，美国的隐私法规认为去标识化的数据不再是受保护个人数据，并给了操作指引，便于落地实施。为了防止去标识化后数据的复原，法规要求同时有技术措施和业务流程进行保障。

学合规-美国隐私法案中的去标识化要求