爬虫网络请求之JS解密三(中国裁判文书网中)

- 前言

中国裁判文书网的反爬策略也是对爬虫们毫不怜惜,今天给大家简单讲一下关于裁判文书网中的js加密问题,分为两部分来讲,方便大家了解学习。还是老规矩,仅供学习参考,切勿用于商业用途。

一、介绍

打开裁判文书网,发现浏览器访问不了List页面,只好改用火狐浏览器。进入到List页面(也就是可以看到很多案件的那一页),发现是Ajax异步更新页面,也就是说它用JS来加载更新数据,而不更新整个页面。那么我们只有两种方案,一种是用selenium+浏览器,来驱动浏览器来加载数据,但是此方案效率非常感人,如果采集数据量大或更新频率高,非常不推荐这种方式。另一种就是找数据加载的接口位置,这里不明白的可以看我之前的文章python爬虫项目(新手教程)之知乎。这一步一般都会有JS加密来防范爬虫。

二、页面分析

我们先找到案件数据加载的接口位置,如图2-1所示:


图2-1 数据加载接口

找到接口位置后,查看请求方式为post,那么意味着我们需要参数访问。我们先看此页面的cookies,后面会需要用到,如图2-2所示:


图2-2 接口cookie

这里的vjkl5,后面会用到,先圈出来。我们接下来查看post请求参数,如图2-3 所示:
图2-3 接口请求表单参数

这里的参数前面都很好理解,Param:案件类型,Index:索引页面,Page:设置当前页面数据请求条数,Order:是哪个级别,Direction:返回文件格式。后面三个参数vl5x,number,guid不知道是什么意义,其它的可以自己选择设置,所以我们今天我们需要做的就是找到这三个参数的获取方式。

三、JS加密研究

我们既然知道是JS方式加载的参数,所以检索所有加载的JS文件,找到vl5x和guid两个关键字。这一步没什么好方法,地毯式搜索。总共38个JS文件,从Lawyee.CPWSW.List.js 文件找到如下代码如图3-1所示:


图3-1 JS参数内容

可以看到data里面写了所有参数获取位置,我们先看number,同样在这个js文件的代码中顺着number:yzm1,可以发现如图3-2所示:


图3-2 number参数获取方式

可以顺着发现,number等于yzm1,yzm1等于subyzm[7,11],subyzm又为当前链接url下&number参数坐标+1位置开始的子串subyzm,如当前链接为http://wenshu.court.gov.cn/Assets/js/20180919/Lawyee.CPWSW.List.js,没有&number所以坐标为-1+1,subyzm=url[0:],yzm1=subyzm[7:11]=wens,大家不理解可以看下JS代码,我这里翻译成python语言是这样。
这样我们找到了number,同样方法在此文件下检索guid,发现如图3-3所示:

图3-3 guid参数获取方式

很容易发现guid等于guid1,guid1又等于几个createGuid( )组合起来的一串数字,而CreateGuid函数也已经给出,随机数字产生。
这样我们只需要找到vl5x就可以了,这个放最后讲也是因为这个参数最麻烦,在当前文件下,我们根据图3-1只能知道vl5x:getKey(),我们只要找到getKey()这个函数即可,但是此文件没有找到getKey( ),意味着这是一个外部函数。我们需要从其它文件下获取。
同样,我们一个一个搜索着getKey()函数,在Lawyee.CPWSW.ListExtend.js文件下找到如图3-4所示:
图3-4 getKey函数定义

我们得到这个参数了,想要和之前一样去读懂这个函数是不可能的了,因为不仅非常长非常长,而且还有JS混淆,关于js混淆,就是把其中的变量、方法位置顺序打乱,但是又用一些无关的变量或者方法来保证执行顺序,这种js混淆的也很好处理,复制完整的混淆代码去js混淆还原网站还原。也可以利用chrome中的Console后台调试JS代码了,直接copy这段代码进去发现如图3-5所示:
图3-5 测试getKey函数

发现de没有定义,我们在此文件发现de函数定义后,加进去发现如图3-6所示:
图3-6 加入de函数后

其中_fxxx没有,我们又找到_fxxx定义后加入发现如图3-7所示:
图3-7 加入_fxxx函数后

我们发现这里要获取网页Cookie值,但是JS代码发现如图3-8所示:
图3-8 getCookie代码

这是一段加密的JS代码,根本看不到什么意思,但是用chrome浏览器source可以看到其中真正的代码,这里要如何使用呢,就是调试的时候设置断点,这样到这里就可以显示出来,当然也可以去js混淆网站去解密也可以看到相关内容,这里在chrome调试下发现如图3-9所示:
图3-9 加密的Js代码

这里的cookie值要去得到cookie中vjkl5的值,所以我们要想得到vl5x这个参数,事先还必须得到网站给我请求加的cookies上vjkl5的值才行。然后我们在这里需要改写这段代码,方法也很简单,在此函数前自定义一个getCookie的函数,直接返回我们获取到的cookies上vjkl5的值,这里我们以参数的形式传进去,改写如图3-10所示:
图3-10 getKey函数改写

加入我们自定义的getCookie方法后,我们继续测试,调试代码,输入getKey(‘123’)发现如图3-11所示:
图3-11 加入getCookie后

继续缺少函数,这里我们找hex_md5,发现在/Assets/js/dist/libs/md5.js文件下,我们继续copy下来,放入进去调试。如图3-12所示:
图3-12 放入hex_md5函数

到这里基本上就是重复以上步骤,找到所缺函数定义位置,加入进去。这里找到Base64函数定义,放进去
就可以惊喜发现,代码运行成功。这里我们加入之前图2-2所展示的cookie值vjkl5的值放进去,结果如图3-13所示:
图3-13 代码调试成功

比对2-2和2-3的cookie和vl5x参数,发现结果正确。到此我们已经将所需要的关键参数全部集齐。

四、代码实现

代码放上来就被简书网管查水表了,后面会一起放在Github上,整理好后会贴出来。当然这些不重要,重要的是加密的方式和解密的思路以及手段。
运行结果如图4-1所示:


图4-1 运行结果图

结语

中国裁判文书网目前作为全球最大的裁判文书网站,每天面临的访问量也是非常巨大,反爬严密也是可以看出来,之前也做过一次解密,不过此次反爬策略又全面更新了一次,访问前要经过360安域排查,文书ID做了加密,JS混淆加密,jsfuck加密,随机参数也做了一些修改,下一次会给大家分享关于对裁判文书网文书ID加密研究的过程讲解。如果大家有什么问题,欢迎一起学习探讨。

如果您喜欢我的文章,请关注或点击喜欢,您的支持是我最大的动力 ^ ^~!
仅供学习参考,切勿用于商业用途
转载请注明作者及其出处

黑羊的皇冠 简书主页

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,658评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,482评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,213评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,395评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,487评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,523评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,525评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,300评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,753评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,048评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,223评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,905评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,541评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,168评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,417评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,094评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,088评论 2 352

推荐阅读更多精彩内容