写写我的学习笔记,本文仅为个人学习心得,与AWS或Amazon官方无关
内容简介
许多客户使用Macie作为敏感数据发现的工具,Macie中自带的Managed Data Identifier(简称MDI)其PII规则目前共有70种。
但我们发现PII类型都是欧洲和美洲国家的,如果我们在东南亚做生意,需要泰国的身份证号怎么办?
还好Macie允许我们自定Custom Data Identifier(简称CDI),可以通过RE来实现变化多端的需求了!
因此又会被追问,那Macie支持扫描中文或者非拉丁文的文件吗?
CDI支持中文吗?
官方并未有明确支持的声明,但是我在实际测试时的确是可以扫出结果的。感觉这完全看个人编写CDI的水平了!
中文PII测试
以Gender举例,请按下图设置CDI后保存。
做一个txt文件,扔上S3测试用。
扫一本《红楼梦》试试?
Macie官方定位是敏感信息发现工具,不是计数工具。但是我脑洞大啊,想满足一下我的恶趣味啊!
我就想知道绛珠仙子到底哭过多少次,Macie能不能帮忙呢?
于是我又设计了如下CDI:
放一本txt的《红楼梦》上S3.
create a job,指定这个S3,选上MDI中的NAME,以及刚刚新建的两个CDI,一起扫描这两个txt文件试试吧!
Test结果展示
几分钟后,Job完成,查看结果,果然有finding啊!好开❤️。不仅MDI中NAME可以扫描出拼音格式的中文姓名,我自定义的Gender以及身份证号也全扫出来了。如下图在Reveal Samples功能中可以预览前十个结果:
而《红楼梦》呢?竟然也有结果,使用Reveal Samples功能查看前10项,怎么样,确实是林妹妹在哭的情节吧?
小结
功能如此强悍,行事却如此低调!虽然Macie不是信息计数工具(很明显结果完全依赖于CDI的写法),mais偶尔我们开个脑洞玩一下也不错。那么问题来了,究竟林妹妹在书中哭了多少次呢?