登录注册写文章

解决python爬取网站被反爬

解决python爬取网站被反爬

问题场景

一次性爬取豆瓣的电影TOP250时，被服务器判定为IP异常，需要登录才能正常使用

原理

爬虫会干扰到正常的服务器访问，所以一般的网站都会有反爬虫机制，主要的原理是：

监听TCP连接；
分析请求中的User-Agent和refer信息；
访问时间间隔短，访问量大

解决方式

python爬取豆瓣电影，被反爬后的解决方式:

user_agent
user_agent是浏览器类型的详细信息，也是浏览器提交请求的重要请求头部字段；
可以提供不同的user_agent，来绕过浏览器的反爬机制；
使用代理和IP轮换
反爬机制最常用的方式之一是检测IP，因此可以更换不同的IP地址来爬取内容；
设置访问时间和间隔
有些网站的会设置访问时间间隔，短时间访问次数超过了默认次数，就会被禁用，因此可以降低访问频率，设置长一点的访问时间；

自己解决的时候是加headers，尽可能字段多和详尽，可以暂时解决IP被禁用，但是爬取太多页面还是会被禁用，所以为了直接解决这个问题，选择fake_useragent来随机更换请求头里的User-Agent字段，达到绕过反爬机制的效果

fake_useragent的使用方法请移步：

「fake-useragent 的用法」

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

（二）爬虫框架(5)——scrapy下载中间件
在写爬虫的时候，经常会遇到一个难题，就是反爬虫。反爬虫策略一般就是检测user-agent，IP等等信息，辨别是机...
爱折腾的胖子阅读 4,086评论 0赞 2
Scrapy学习笔记(6)-反爬虫与反反爬虫策略
前言到目前为止我们已经写了好几个爬虫，虽然已经可以实现数据采集，但是我们的爬虫其实是在”裸奔”，因为没有加任何的...
leeyis阅读 4,476评论 0赞 10
反爬机制和破解方法汇总
反爬机制和破解方法汇总一什么是爬虫和反爬虫？爬虫：使用任何技术手段，批量获取网站信息的一种方式。反爬虫：使用...
树桐123阅读 5,722评论 0赞 0
生活很现实，但总有幸福在等你
01 前天的文章中提到了《欢乐颂》，这是我去年，完整看过的为数不多的一部电视剧。我喜欢这部剧，因为这是近些年中国...
怀左同学阅读 9,866评论 32赞 114
我们护士挣得到底是哪份钱
很快，又有新的一批师妹下临床实习了。不曾想，一转眼，自己步入临床已快十年。于是，慢慢对这个行业又有一些新的了解。 ...
小淑文阅读 3,229评论 2赞 1

1赞2赞

赞赏

手机看全文