登录注册写文章

2022-10-11如何使用Amazon Macie发现中文敏感信息？

清风晓星辰

2022-10-11如何使用Amazon Macie发现中文敏感信息？

写写我的学习笔记，本文仅为个人学习心得，与AWS或Amazon官方无关

内容简介

许多客户使用Macie作为敏感数据发现的工具，Macie中自带的Managed Data Identifier（简称MDI）其PII规则目前共有70种。
但我们发现PII类型都是欧洲和美洲国家的，如果我们在东南亚做生意，需要泰国的身份证号怎么办？
还好Macie允许我们自定Custom Data Identifier（简称CDI），可以通过RE来实现变化多端的需求了！
因此又会被追问，那Macie支持扫描中文或者非拉丁文的文件吗？

CDI支持中文吗？

官方并未有明确支持的声明，但是我在实际测试时的确是可以扫出结果的。感觉这完全看个人编写CDI的水平了！

中文PII测试

以Gender举例，请按下图设置CDI后保存。

GenderCDI配置画面[图片上传中...(Screen Shot 2022-10-11 at 19.38.06.png-a00e51-1665488535520-0)]

做一个txt文件，扔上S3测试用。

测试txt截图

扫一本《红楼梦》试试？

Macie官方定位是敏感信息发现工具，不是计数工具。但是我脑洞大啊，想满足一下我的恶趣味啊！
我就想知道绛珠仙子到底哭过多少次，Macie能不能帮忙呢？
于是我又设计了如下CDI：

红楼梦测试CDI配置画面

放一本txt的《红楼梦》上S3.
create a job,指定这个S3，选上MDI中的NAME，以及刚刚新建的两个CDI，一起扫描这两个txt文件试试吧！

Test结果展示

几分钟后，Job完成，查看结果，果然有finding啊！好开❤️。不仅MDI中NAME可以扫描出拼音格式的中文姓名，我自定义的Gender以及身份证号也全扫出来了。如下图在Reveal Samples功能中可以预览前十个结果：

Reveal samples中查看结果1

Reveal samples中查看结果2

而《红楼梦》呢？竟然也有结果，使用Reveal Samples功能查看前10项，怎么样，确实是林妹妹在哭的情节吧？

《红楼梦》扫描结果Reveal Samples中展示

小结

功能如此强悍，行事却如此低调！虽然Macie不是信息计数工具（很明显结果完全依赖于CDI的写法），mais偶尔我们开个脑洞玩一下也不错。那么问题来了，究竟林妹妹在书中哭了多少次呢？

参考资料

【1】managed-data-identifiers
【2】custom-data-identifiers

最后编辑于：2022.10.12 10:58:36

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

2022-09-26 MyFirstBlog
How to centrally monitor failed backup jobs in Security H...
清风晓星辰阅读 216评论 0赞 0
2022-09-25 如何使用AWS Securityhub快速建立SIEM User Cas...
写写我的个人学习心德，本文仅为个人学习心德，与AWS无关使用AWS Securityhub快速建立安全态势聚合分析...
清风晓星辰阅读 589评论 0赞 0

2022-09-07 如何在AWS上发现是谁删除了S3里文件？
我的aws学习心得背景我们将大量数据文件放在S3上，有一天突然发现一个重要文件不见，是谁删除的什么时候删除的？...
清风晓星辰阅读 631评论 0赞 0
2019-08-17 awesome-java,JAVA开发的武器库
https://github.com/akullpp/awesome-java Awesome Java [图片上...
Albert陈凯阅读 667评论 1赞 1
Document Provider Extensions
通过iOS 8app extensions,我们可以选择多种方式去分享我们app的功能。Document Prov...
_浅墨_阅读 7,406评论 4赞 12

友情链接更多精彩内容

赞1赞

赞赏

手机看全文