作为爬虫er,与网站建设人员的斗智斗勇是一定会经历的,那么,作为立志于成为专业数据抓取人士的博主我也不例外。今天,我们就来简单说说如何抓取法律文书网的数据。
首先,介绍下这个网站,如网址名,它是一个专门共享各类法律文书的网站。全国各地的判决书均可以在这个网站上找得到,并提供下载功能。这次之所以选择它作为目标,也是因为它的反爬策略为低级~中级,难度适中,符合我的目标预期。
好了,开始破解工作,首先,使用抓包工具,我们可以发现,只要获取如下几个参数的来源,我们就可以直接获取到PC端Json数据。
观察了下,问题集中在最后三个参数,number 、guid和vl5x。
guid是页面内的js生成的,所以大家只要再js里面搜索该关键字,即可找到生成的规则,并改写成python版即可。而number则是通过带guid的post请求向服务器端获取值,这个也不是难点。
vl5x,这个才是真正的难点,接下来,我就简单讲下思路。
一开始页面源码搜了下,没找到。然后,我的视线转向cookies,会不会是cookie里面自带的呢?于是一看,这还有个值挺像的,又用这个在页面上一搜,还真有!
不过这时候,傻眼了。这一串js是啥呀,感觉能写出这种代码的一定是机器人!求助了下谷歌,果然,是js源码的pack操作,我的理解是再转码。
至于如何给解码呢,请大家谷歌相关教程,最后,上爬出来的数据截图。
爬虫漫漫路,近期会继续研究js和爬虫搜索引擎相关的技术。