使用scrapy-redis实现分布式爬虫

一、准备工作

用来实现分布式爬虫的项目是：爬取知乎用户信息项目
注册了两个服务器：阿里云服务器和腾讯云服务器，使用的系统都是windows系统

二、scrapy-redis组件的使用

将知乎用户项目下载至本地，并使用git命令新建分支以方便对项目进行更改而不影响之前的项目：

git checkout -b distributed #新建分支
git branch #切换分支

在项目settings.py中加入：

SCHEDULER = "scrapy_redis.schedler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
REDIS_URL = 'redis://120.xx.xx.xx:password@120.xx.xx.xx:6379' #我用的是阿里云服务器，此处包括服务器的用户名、密码、服务器公网IP、端口号
ITEM_PIPELINES = {
   'zhihuuser.pipelines.MongoPipeline': 300,
# 'scrapy_redis.pipelines.RedisPipeline': 301,
}

将更改后的项目上传至GitHub：

git add -A
git commit -m "add distributed"
git push origin distributed

三、在本机及腾讯云上进行协同爬取

在本机上可以直接使用命令运行项目：

scrapy crawl zhihu

在腾讯云服务器上需将在分支distributed上的项目克隆下来，然后再运行：

git clone http://github.com/xxx/xxx -b distributed

这样子就可以让本机及腾讯云服务器对知乎用户项目进行协同爬取，各自爬取到的数据保存在各自的MongoDB数据库--

本机MongoDB数据库：

本机MongoDB.png

腾讯云MongoDB数据库：

腾讯云MongoDB.png

阿里云redis数据库：

阿里云redis数据库.png

四、问题

在此过程中出现各种问题：
1、服务器无法进行远程连接
2、数据库无法进行远程连接
3、redis、mongodb数据库出现的报错

最后编辑于：2017.12.11 11:57:43

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

使用scrapy-redis实现分布式爬虫

使用scrapy-redis实现分布式爬虫

一、准备工作

二、scrapy-redis组件的使用

三、在本机及腾讯云上进行协同爬取

四、问题

相关阅读更多精彩内容

友情链接更多精彩内容