登录注册写文章

Scrapy同时启动多个爬虫

宇宙有只AGI

Scrapy同时启动多个爬虫

一、方法

1、通过CrawlerProcess

"""

from scrapy.crawlerimport CrawlerProcess

from scrapy.utils.projectimport get_project_settings

def run_process_spiders(spider_list=None):

process = CrawlerProcess(get_project_settings())

for spider in spider_list:

process.crawl(spider)

process.start()

"""

二、参考资料

1、在同一个进程中运行多个蜘蛛（官方，使用中）

https://docs.scrapy.org/en/latest/topics/practices.html#run-from-script

2、scrapy启动多爬虫（简书，测试可用）

https://www.jianshu.com/p/03a68cbacf92

三、思考

1、不使用scrapy-redis的原因

a. 启动后好像是按顺序执行的（即一个个执行爬虫，速度变慢）

b. redis内存吃不消（两个就满了）

c. 服务器重启后等一些意外情况，会导致redis重启，保存的request指纹丢失

d. 即便指纹不丢失，也可能会出现数据丢失的情况

最后编辑于：2019.07.17 14:37:55

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Scrapy同时启动多个爬虫
一、背景环境环境介绍二、多爬虫同时启动首先在我们的项目里面创建一个commands文件夹用来存放我们等下需要...
艾胖胖胖阅读 7,042评论 2赞 2
Scrapy框架-分布式爬虫实现及scrapy_redis使用
scrapy是不支持分布式的。分布式爬虫应该是在多台服务器(A B C服务器)，他们不会重复交叉爬取(需要用到状态...
中乘风阅读 20,624评论 0赞 19

同时运行多个scrapy爬虫的几种方法（自定义scrapy项目命令）
试想一下，前面做的实验和例子都只有一个spider。然而，现实的开发的爬虫肯定不止一个。既然这样，那么就会有如下几...
玢仼阅读 10,626评论 3赞 6
Scrapy-redis实现分布式爬虫
Scrapy，Python开发的一个快速,高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化...
Evtion阅读 11,183评论 12赞 18
使用Docker部署scrapy-redis分布式爬虫
引言在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫，这篇记录了使用Scrapy-Redis将其重...
朱晓飞阅读 11,698评论 1赞 24

1赞2赞

赞赏

手机看全文