迄今个人遇到的反爬虫策略及应对方法梳理(由浅入深)

1 get方法直接访问即可获得响应数据的静态页面

基于DOM节点元素通过xpath,css选择器或者re正则表达式直接提取相关信息

2 get方法服务器检查request.header相关字段

重点的几个是UserAgent, referer ,cookie字段有时需要添加所有字段才能获得响应数据

3 get方法目标url修改offset limit start str格式的日期(针对日报板块)**

比如下一页的timestamp是上页末尾的timestamp ,有的是基于base64加密

即可实现数据累积式或者增量爬取

4 get方法目标url的参数经过js处理得到新的url地址

此时需要找到对应的js文件,分析得到新的url地址

5 post方法需要关键的几个字段添加data参数后一般可以直接获取

有些是经过加密之后比如hash方法由于不知道相应hash 参数,就不能实现爬取

6 IP 如果ip被封可以使用ip池调用接口每次得到新ramdom的ip 使用即可

7 需要账号登录并验证cookie信息的可以将登录过后的cookie信息提取出来加在cookie字段

有时需要用到session对象

8 加速乐cookie加密

原理是浏览器会登陆两次网站,第一次服务器会在客户端(浏览器)添加新的cookie

客户端得到cookie后由js执行得到第二段cookie值

客户端需携带这两个cookie才能真正得到服务器响应数据

解决方法: 执行加速乐js脚本,删除替换其中变量或其它字符

处理即可