说明:
利用selenium自动化控制网页浏览器模拟人工操作进行破解滑块验证码,从而抓取公司的工商信息。
(参考:https://github.com/iYgnohZ/crack-geetest)
需要用到的第三方库:
selenium→pip install selenium安装
PIL-1.1.7.win32-py2.7.exe(图片处理模块PIL,需要的话找我要)
基于chrome的浏览器驱动(chrome版本>=5.0)
PhantomJS-2.11-windows(无边框浏览器→后续优化需要用到的模块)
脚本逻辑及现状:
破解思路:
-1. 进入对应省份搜索页面,并等待输入框与搜索按钮加载完成
-2.填入搜索企业,点击按钮,等待滑块元素加载完成
-3.截图,拖动,再截图
-4.计算需要滑动的距离
-5.生成滑动轨迹,并进行模拟滑动
-6.检测验证结果,如不成功,点击刷新按钮重新从3开始
-7.检验成功,抓取公司网页,并后退重新从2开始循环下一条。