scrapy设置时间间隔

BlueCat2016

scrapy设置时间间隔

当使用scrapy大规模爬取某一站点的页面时，有时候会因爬取过于频繁而被封IP，导致出现400等错误。

此时的解决思路之一就是让蜘蛛在访问网址中间休息1~2秒。

还有就是配置User Agent，尽量轮换使用不同的UserAgent去抓取网页

在Scrapy项目的settings.py中，添加如下设置：

DOWNLOAD_DELAY = 2
RANDOMIZE_DOWNLOAD_DELAY = True
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_3) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.54 Safari/536.5'
COOKIES_ENABLED = True

最后编辑于：2018.08.07 12:10:21

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文

scrapy设置时间间隔

相关阅读更多精彩内容

友情链接更多精彩内容