保护日志中的用户隐私数据

2019年度“315”晚会人工智能拨打骚扰电话的情节,让大众了解到在信息时代,保护个人隐私的重要性。本篇文章分享了在日志记录中保护用户隐私数据的几个最佳实践。

与“中国人愿意用隐私交换便利性”的心态完全不同,欧美国家在个人隐私保护方面明显走得更早也更远一些。在2018年5月GDPR发布前后的一段时间里,保护个人隐私相关的需求被迅速提高了优先级,而像我这样一个开发国际化产品的普通程序员,日常工作也因此受到影响,我们放下手中的业务需求卡(Story),转而去做GDPR相关的安全需求。

一般在医疗保健或金融行业中,限制访问客户的敏感数据有着非常严格的规定,尤其欧洲GDPR颁布之后,公司泄露个人数据的后果也非常严重。在个人隐私保护方面,国内目前在法律和意识方面处于滞后的状态,但是许多人或多或少都感受到个人信息泄露给自己带来的麻烦,比如骚扰电话的增多就是最明显的例证。比较乐观的是网络安全法的发布,以及网民意识的觉醒,表明我们的个人信息保护正在路上。

对于一些面向欧美的项目,从公司最高层面,自上而下,我们采取了一系列相关动作,比如梳理我们基础设施架构图、数据流图、API数据字段分析等,其中包括保护日志中的个人信息。

安全问题的特殊性

个人隐私安全和其它安全问题一样,是一个永远做不完的需求。你不能说你的网站是绝对安全的,只能说“我检查了所有目前已发现的安全漏洞列表(Checklist),并且采取了相应的防御措施,做到尽量安全”,或者说我们采取了一些很好的安全实践,比如采取了动态密码、在nginx上安装了防攻击防SQL注入插件等等。

现在的Web系统一般都配备了日志系统用于记录访问请求、分析线上事故等,比如开源的有ELK,SaaS的有DataDog、Sumo Logic 等。

在日志记录过程记录下一些用户隐私信息往往是不可避免的。诚然,开发者的个人隐私保护意识是很重要的,但有时并不一定是开发者的主动想偷窥用户信息。比如这里举一个很常见的情况,有些程序异常如果没有合理捕获,往往会输出调用堆栈,这些调用堆栈里面某些方法的参数可能就包含有个人隐私信息;

虽说没有一种一劳永逸的方式来避免个人信息出现在日志中,但我们可以通过下面的实践来尽量规避,并将这些内建在自己平时的开发工作中。下面的实践,一些涉及到了代码层面的技术实践、团队流程的优化,还有的是测试、运维上的一些措施。

首先:确定什么是隐私数据

在我们深入讨论怎样避免个人隐私数据出现在日志之前,我们来界定什么是隐私数据

  • 个人可标识数据(PII):如社会安全号码,数据组合(如名字+出生日期或姓氏+邮政编码)或用户生成的数据(如电子邮件或用户名,如blog@mail.wangbaiyuan.cn,手机号。
  • 健康信息
  • 财务数据(如信用卡号)
  • 密码
  • IP地址:IP地址也有可能是个人隐私数据,尤其是与个人可标识数据与其有某种绑定关系。(而2019年的3.15晚会介绍一种将MAC也变成了PII的方式)

个人隐私信息不一而足,其界定工作可能需要与熟悉GDPR的安全专家合作来完成,根据实际情况彻查应用内的数据,来确定什么是敏感的。

一、解耦隐私字段

处理隐私数据时,应尽量减少系统使用这些数据的频率。比如在数据库表设计时,使用电子邮件地址Email,或者极端一点的例子,使用身份证号码(下称PID)来作为“用户”表的主键。这意味系统在访问用户数据时,都需要使用Email或者PID来建立关联关系,这样做可能会非常省事,而且系统也是完全可以工作的,但是这极大地提高了敏感字段的曝光率,出现的地方越多,意味着被日志记录下来的几率越大。

所以更好的方法是解耦出隐私数据,只在在必要时才使用它。一种常见的解决方案是将随机生成的字符串作为用户表的ID,同时建立一个“1对1”的数据库表,来存储用户ID与用户数据库表主键的映射关系。例如:

PID | 本表的主键、其它表的外键
------------------------- 
42-12xxxx-345 |pJlyhr7FhTcLPfvlEAb1eA2Hza

在用户表以外的所有数据库表,都应该使用这个随机ID进行查询,这种随机ID即使被暴露也不会泄露任何个人数据。对于所以涉及用户隐私的业务ID,我们都建议使用随机ID进行置换。

二、避免在URL中出现个人隐私信息

比如你有一个RESTful API,通过Email来查找用户信息,则可能很容易拥有这样一个Endpoint,如:/user/<email>。这种请求URL通常会被反向代理服务器、Web服务器、负载均衡器记录在访问日志中,如此一来用户的Email就会出现在日志之中。
为了避免敏感数据出现在网址之中,可以

    1. 不要将敏感字段用作唯一标识符,改用这些随机ID。
    1. 将敏感值放在POST请求的请求体中

与上面数据库解耦隐私字段一样,这些问题在API或数据库设计早期就需要考虑,否则可能后期需要花大量的工作来进行重构。而它的前提就是,应该要确定系统中哪些数据是敏感数据,之后建立编码规范,明确地告诉开发人员哪些字段不允许出现在URL中,或者其它数据表的外键中。

三、对象打印重写toString方法

为了定位问题或者debug的方便,开发经常会在日志中添加一个调试信息。因为追求方便的缘故,可能写出这样的代码(将User直接打印,而不是user.username):

logger.info("为用户$ {user}更新电子邮件);

一些程序语言,比如Java、Javascript,如果将一个对象直接进行打印,它其实是打印 toString方法返回的字符串,这样我们可以重写对象的toString方法来避免打印对象时出现的个人信息泄漏问题。

class UserAccount { 
  id:string 
  username:string 
  passwordHash:string 
  firstName:string 
  lastName:string 

  ... 

  public toString(){ 
    return "UserAccount (${this.id})"; 
}

如果开发人员实在“作死”的话,比如直接打印对象的字段就没有办法了,例如:

logger.info("The user's details are: ${user.firstName} ${user.lastName}");

四、结构化日志输出时屏蔽隐私字段

为了日志方便查看,我们常常将日志以Json字符串的形式上传到日志服务器,这样我们查看日志可以清晰看到键值对结构。

我们可以在应用的日志输出中,遍历所有键值对信息,如果“键”存在firstName这样的字段,或者“值”中能匹配到Email,那么将对应的值替换成“<MASKED>”,例如:

Blacklist = ["firstName", "lastName"]
EmailRegex = r".+@.+";
class Logger {
  log(details: Map<string,string>) {
    const cleanedDetails = details.map( (key, value) => {
      if (Blacklist.contains(key) || EmailRegex.match(value)) {
        return (key, "<MASKED>");
      }
      return (key, value);
    }
    console.log(JSON.stringify(cleanedDetails));
  }
}

五、将日志代码审查纳入Code Review

Code Review是开发过程中可以保证代码质量的部分,比如在Code Review中常常会被别人指出程序漏洞、健壮性问题、改进建议等等。将日志代码的检查作为Code Review中各个成员关注的一部分。这个方面不是技术层面,而是团队Code Review流程上的改善。

如果使用的是Pull Request Template 来进行合并代码,则可能需要在模板中设置一个复选框,提示reviewer进行检查。

六、个人信息泄露测试纳入QA和自动化测试

虽说目前大部分公司的实践,并没有把个人隐私泄露测试纳入测试或者QA人员的工作范围,但是这部分的工作不仅需要测试来做,而且甚至可以自动化

比如一个用户注册的场景,测试人员可以模仿用户在Web前端表单填写姓名、Email后,检查服务器日志中是否含有这些信息。而这部分工作可以使用Selenium、Cypress等端到端测试工具,然后调用日志服务器的API来搜索这些信息是否存在,来实现自动化。

自动化的个人隐私泄露测试也可以将其纳入到CI/CD持续集成流水线中。

七、在日志收集器上传前“打码”隐私信息

在我们的项目中,一般存在两种日志收集方式

  • 通过日志中心提供的日志收集进程(代理程序、Agent),将机器实例的标准输出或者日志文件内容,推送到日志服务器
  • 通过AWS Lambda无服务器代码转发日志到日志中心
日志收集前打码

日志收集工具是日志到达日志中心的必经之地,在这个关口做好信息屏蔽,就可以对来自所有服务(多个微服务的情况下)的日志做集中式的处理。Datadog Agent直接提供了屏蔽隐私数据的配置,而AWS Lambda的代码则是我们可控的,可以自己实现代码层面的正则替换。

URL中含有Email被打码

八、日志系统中配置个人隐私信息的监控告警

即使有了上面的实践,我们依旧不能保证个人隐私绝对不会出现在日志中,一方面我们可以在平时Debug、查看应用日志时有意识地检查有没有含有隐私信息,另一方面我们还是可以通过一些技术手段将这一检测工作自动化,并通过告警系统通知到团队成员进行处理。

在监控系统配置Email告警

这已经在笔者所在的团队中得到实践。我们使用Datadog作为日志、监控系统,成功实现在日志中出现Email信息时,Datadog能自动发送邮件通知。但是需要指出的一点是,因为Email可以很好地通过正则表达式进行匹配,同时被很多日志系统所支持。但是对于姓名这些信息,可能只能交给人工智能了。

总结

PII Protection

从上面的阐述中可以看到,个人隐私信息的保护,已经不是请一个安全专家就能简单解决的问题,也不是单独的某个角色的工作,而是需要整个团队各个角色的通力合作。这就是DevSecOps理念。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,029评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,395评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,570评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,535评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,650评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,850评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,006评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,747评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,207评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,536评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,683评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,342评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,964评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,772评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,004评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,401评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,566评论 2 349