反爬虫策略

最近在做爬虫相关的作业，发现一些网站有反爬虫策略。反爬虫策略说白了就是要检测你是不是机器人。

那问题来了，如何伪装成普通的用户反问呢？

如把user-agent 设置成一大串，设置合理的Accpet 和 Accept-Language

"'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36',"

'Accept':'image/webp,image/apng,image/*,*/*;q=0.8'

'Accept-Language':'zh-CN,zh;q=0.9,en;q=0.8'

机器人1秒就可以爬上千个链接，通常很容易就被识别，所以要合理的sleep，让时间间隔变成 1-3秒来访问网页。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Scrapy学习笔记(6)-反爬虫与反反爬虫策略
前言到目前为止我们已经写了好几个爬虫，虽然已经可以实现数据采集，但是我们的爬虫其实是在”裸奔”，因为没有加任何的...
leeyis阅读 953评论 0赞 10
Python学习九十天：突破反爬虫策略
1.什么是爬虫和反爬虫爬虫是使用任何技术手段批量获取网站信息的一种方式，反爬虫是使用任何技术手段阻止别人批量获取...
暖A暖阅读 707评论 0赞 8
【Scrapy】绕过反爬虫策略和存储（二）
Scrapy中的数据流由执行引擎控制，其过程如下：1.引擎打开一个网站(open a domain)，找到处理该网...
是Jonathan阅读 1,439评论 0赞 2
一篇文章教你反爬虫策略的应对机制
爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站...
丨程序之道丨阅读 1,449评论 0赞 2
爬虫之反爬虫策略总结
前介爬虫的意义和危害爬虫的意义在于通过技术手段大批量的获取网站信息的一种方式，这种大批量的信息采集往往会对目标...
非问阅读 983评论 0赞 0

赞1赞

赞赏

手机看全文