反爬虫策略

最近在做爬虫相关的作业, 发现一些网站有反爬虫策略。 反爬虫策略说白了就是要检测你是不是机器人。 

那问题来了, 如何伪装成普通的用户反问呢?

构造合理的http请求头

如把user-agent 设置成一大串 ,设置合理的Accpet 和 Accept-Language

"'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',"

'Accept':'image/webp,image/apng,image/*,*/*;q=0.8'

'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8'

合理的访问时间间隔

机器人1秒就可以爬上千个链接, 通常很容易就被识别, 所以要合理的sleep, 让时间间隔变成 1-3秒来访问网页。 


参考:

https://www.cnblogs.com/junrong624/p/5533655.html

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容