数据的保护和爬取好比是矛和盾。数据需要保护,但是数据产生之后会有大量的爬取需求。
如何实现数据的保护和爬取值得我们思考。
数据保护
App方面的保护
- 设备的注册
- 设备的激活
- 各个数据接口的sig保护或者Json和byte的转换
- 运维监控系统的搭建,监控用户请求异常的报警。屏蔽相关的device数据请求。
App API接口数据保护。
- 使用https双向验证,保证数据不能被charles、fiddler、mitmproxy给拦截到。其中android可以设置noproxy防止抓包工具抓取,ios可采用https证书来保证数据的安全。
- 数据sig的保护:可以通过url地址和body串联,同时使用base64加密,并且核心加密点使用so文件或者动态库,在加密的过程中so和app之间双向验证。以android举例,核心加密方法放置在secret()方法放置在A.so文件中,在apk调用A.so的secret()方法,且secret()方法中会回调apk验证签名是否正确。
- token的保护:用户所分配的token和计算出来的sig,来计算tokensig。
- 接口请求字段的保护:请求的api接口去除基地址外,使用sig混淆,计算出sig3。
通过以上的4层加密,实现了App数据的保护。
web数据保护
web端页面基本上都可以看到源码;比如是html、css、js等。但web端的数据也有一定的数据保护策略。相关字段保存在cookie中
- web 对应的web did以及对应的sid随机生成应对爬虫大规模爬取数据。
- web打开网页频繁时弹出滑块验证码,实现对爬虫的拦截。其中滑块的验证码才使用aes和base64通过滑块过程计算得到相关的data,后端验证其data的正确性。其中js部分已经使用webpack混淆打包。
- web页面核心数据使用指定的字体的加密。比如粉丝关注量和收藏人数等。数字会单独抽取为ttf字体,每次获取该网页时都会有不同的字体。
其中上述1和3都可以通过对应的脚本来还原对应的接口请求,滑块的保护策略逆向破解需要一点时间。
数据的爬取
提到数据爬取,基本上就需要采用数据保护的逆向过程。
App逆向实现数据爬取
主要过程
- 分析android和ios app,抓取对应的接口请求。android设备或者模拟器需要root,安装xposed或者蒙面,实现ssl的突破。ios设备需要越狱。
- android 采用的网络框架基本上都是okhttp;ios采用的基本上AFN。
- 安装jadx,分析android apk,分析接口,得到加密点。
- 定位得到的加密点,分析url和header以及body的合并策略,分析接口请求的sig。
- 使用xposed或者unidebug或者frida、java、python等还原url和header以及body的合并策略或者将对应的url和header以及body送入到so中。其中调用so文件的过程中,会有so和apk之间的双向验证;比如需要apk的签名。
- 还原设备注册的逻辑。这个基本上对应的请求基本上都会是加密的字节流,需要使用xposed或者hook工具hook对应的方法。实现对应的设备注册。
- 设备风控的突破:基本上到了这里基本上是最难的一步。需要使用IDA工具来定位设备注册得到的device_id进行激活;使用IDA工具调试的时候基本上都会有遇到app异常崩溃的问题,因为apk开启了反调试的功能;防止逆向破解。
sig、设备注册、设备激活破解完成之后,APP的接口基本上就可以无限的提取数据了。但对应的得到的device_id在大批量的提取数据时,会落入运维的异常报警。当报警之后,该device_id会被封禁30分钟-60分钟。
所以使用App大规模爬取时,需要无限量的设备池子:激活的device_id。
web端数据的爬取
- 分析cookie,破解对应的web_device_id以及抽取随机产生sid的js脚本。
- 分析字体信息,实现对字体信息的动态提取。
- 分析滑块验证码或者点击验证码等核心逻辑,还原其激活过程。