迄今个人遇到的反爬虫策略及应对方法梳理(由浅入深)

1 get方法 直接访问即可获得响应数据的静态页面

基于DOM节点元素通过xpath,css选择器或者re正则表达式直接提取相关信息

2 get方法 服务器检查request.header相关字段 

重点的几个是UserAgent, referer ,cookie字段 有时需要添加所有字段才能获得响应数据

3 get方法 目标url修改offset limit start str格式的日期(针对日报板块)**

比如下一页的timestamp是上页末尾的timestamp ,有的是基于base64加密

    即可实现数据累积式或者增量爬取

4 get方法 目标url的参数经过js处理得到新的url地址

此时需要找到对应的js文件,分析得到新的url地址

5 post方法 需要关键的几个字段 添加data参数后一般可以直接获取

有些是经过加密之后比如hash方法 由于不知道相应hash 参数,就不能实现爬取


6 IP 如果ip被封  可以使用ip池 调用接口每次得到新ramdom的ip 使用即可


7 需要账号登录并验证cookie信息的可以将登录过后的cookie信息提取出来 加在cookie字段 

有时需要用到session对象

8 加速乐cookie加密

原理是浏览器会登陆两次网站,第一次服务器会在客户端(浏览器)添加新的cookie

    客户端得到cookie后由js执行得到第二段cookie值

    客户端需携带这两个cookie才能真正得到服务器响应数据

    解决方法: 执行加速乐js脚本,删除替换其中变量或其它字符

    处理即可

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。