Srcapy+Redis+mongodb实现一个爬虫中遇到的问题

一、Redis

1、Redis安装
pip install redis 或下载源码安装

2、启动redis
redis-server

redis

3、redis清空缓存
redis-cli flushdb

清空缓存

二、Scrapy配置

1、settings.py

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = None
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

2、Spider类,不再从CrawlSpider类继承,从RedisSpider类继承

from scrapy_redis.spiders import RedisSpider

其他代码相同。

三、遇到的问题:

1、爬虫跑起来以后,不再自动停止了,已经爬取完数据了。是在等待调度吗?还是哪里需要配置。
2、尝试了一下redis没有清空,爬虫再跑一次,仍然可以抓取到20条数据,不清空的话,每次都可以抓到20条。如果清空的话,可以抓取到全部数据,应该不是每次新增加的数据,是哪里出了问题?
3、分布式爬虫如何进行配置?

以上问题,有空再解决。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容