2022-10-11如何使用Amazon Macie发现中文敏感信息?

写写我的学习笔记,本文仅为个人学习心得,与AWS或Amazon官方无关

内容简介

许多客户使用Macie作为敏感数据发现的工具,Macie中自带的Managed Data Identifier(简称MDI)其PII规则目前共有70种。
但我们发现PII类型都是欧洲和美洲国家的,如果我们在东南亚做生意,需要泰国的身份证号怎么办?
还好Macie允许我们自定Custom Data Identifier(简称CDI),可以通过RE来实现变化多端的需求了!
因此又会被追问,那Macie支持扫描中文或者非拉丁文的文件吗?

CDI支持中文吗?

官方并未有明确支持的声明,但是我在实际测试时的确是可以扫出结果的。感觉这完全看个人编写CDI的水平了!

中文PII测试

以Gender举例,请按下图设置CDI后保存。


GenderCDI配置画面[图片上传中...(Screen Shot 2022-10-11 at 19.38.06.png-a00e51-1665488535520-0)]

做一个txt文件,扔上S3测试用。


测试txt截图

扫一本《红楼梦》试试?

Macie官方定位是敏感信息发现工具,不是计数工具。但是我脑洞大啊,想满足一下我的恶趣味啊!
我就想知道绛珠仙子到底哭过多少次,Macie能不能帮忙呢?
于是我又设计了如下CDI:

红楼梦测试CDI配置画面

放一本txt的《红楼梦》上S3.
create a job,指定这个S3,选上MDI中的NAME,以及刚刚新建的两个CDI,一起扫描这两个txt文件试试吧!

Test结果展示

几分钟后,Job完成,查看结果,果然有finding啊!好开❤️。不仅MDI中NAME可以扫描出拼音格式的中文姓名,我自定义的Gender以及身份证号也全扫出来了。如下图在Reveal Samples功能中可以预览前十个结果:

Reveal samples中查看结果1
Reveal samples中查看结果2

而《红楼梦》呢?竟然也有结果,使用Reveal Samples功能查看前10项,怎么样,确实是林妹妹在哭的情节吧?


《红楼梦》扫描结果Reveal Samples中展示

小结

功能如此强悍,行事却如此低调!虽然Macie不是信息计数工具(很明显结果完全依赖于CDI的写法),mais偶尔我们开个脑洞玩一下也不错。那么问题来了,究竟林妹妹在书中哭了多少次呢?

参考资料

【1】managed-data-identifiers
【2】custom-data-identifiers

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容