登录注册写文章

分布式爬虫

分布式爬虫

为什么要学习scrapy_redisScrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：reqeust去重，爬虫持久化，和轻松实现分布式

Scrapy-redis提供了下面四种组件（components）：(四种组件意味着这四个模块都要做相应的修改)

1）Scheduler（调度器）

2）Duplication Filter（requst的去重过滤器）

3）Item Pipeline（将Item存储在redis中以实现分布式处理）

4）Base Spider

代码

与scrapy爬虫代码大同小异，主要是spider类和settings中设置调度器，去重功能：

1. item

完全一样；

2. spiders/sina_news.py

spider类的基类改为RedisSpider

from scrapy_redis.spiders import RedisSpider

注释掉start_urls。

新增属性：

redis_key = ‘sinanewsspider:start_urls’

这个属性是给redis中建组用的，:作为组名和key名的间隔。

3. settings.py

需要设置以下内容：

#使用scrapy_redis调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#使用scrapy_redis的去重处理器

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#不清理Redis队列

SCHEDULER_PERSIST = True

如果这一项为True，那么在Redis中的URL不会被Scrapy_redis清理掉，这样的好处是：爬虫停止了再重新启动，它会从上次暂停的地方开始继续爬取。但是它的弊端也很明显，如果有多个爬虫都要从这里读取URL，需要另外写一段代码来防止重复爬取。

如果设置成了False，那么Scrapy_redis每一次读取了URL以后，就会把这个URL给删除。这样的好处是：多个服务器的爬虫不会拿到同一个URL，也就不会重复爬取。但弊端是：爬虫暂停以后再重新启动，它会重新开始爬。

#redis服务器地址，主机写本地，从机写远程IP

REDIS_HOST = "localhost"

#redis端口

REDIS_PORT = 6379

其他设置（可选）

爬虫请求的调度算法

爬虫的请求调度算法，有三种情况可供选择：

3.1.队列

SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.SpiderQueue'

如果不配置调度算法，默认就会使用这种方式。它实现了一个先入先出的队列，先放进Redis的请求会优先爬取。

3.2.栈

SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.SpiderStack'

这种方式，后放入到Redis的请求会优先爬取。

3.3.优先级队列

SCHEDULER_QUEUE_CLASS='scrapy_redis.queue.SpiderPriorityQueue'

这种方式，会根据一个优先级算法来计算哪些请求先爬取，哪些请求后爬取。这个优先级算法比较复杂，会综合考虑请求的深度等各个因素。

4. pipeline

本来就是一个分离的组件，想改就改，不改也没问题。

scrapy-redis自带的pipeline是将items写入redis数据库中的items中。

前面声明的redis_key = ‘sinanewsspider:start_urls’

提供了组名，完整的key名为sinanewsspider:items

RedisSpider，它能够支持分布式的抓取，采用的是basic spider，需要写parse函数。其次就是不再有start_urls了，取而代之的是redis_key，scrapy-redis将key从Redis里pop出来，成为请求的url地址。

RedisSpider类不需要写start_urls：

scrapy-redis 一般直接写allowd_domains来指定需要爬取的域，也可以从在构造方法init()里动态定义爬虫爬取域范围（一般不用）。

必须指定redis_key，即启动爬虫的命令，参考格式：redis_key = 'myspider:start_urls'

根据指定的格式，start_urls将在 Master端的 redis-cli 里 lpush 到 Redis数据库里，RedisSpider 将在数据库里获取start_urls。

RedisCrawlSpider类爬虫继承了RedisCrawlSpider，能够支持分布式的抓取。因为采用的是crawlSpider，所以需要遵守Rule规则，以及callback不能写parse()方法。

同样也不再有start_urls了，取而代之的是redis_key，scrapy-redis将key从Redis里pop出来，成为请求的url地址。

同样的，RedisCrawlSpider类不需要写start_urls：

scrapy-redis 一般直接写allowd_domains来指定需要爬取的域，也可以从在构造方法init()里动态定义爬虫爬取域范围（一般不用）。必须指定redis_key，即启动爬虫的命令，

参考格式：redis_key = 'myspider:start_urls'根据指定的格式，start_urls将在 Master端的 redis-cli 里 lpush 到 Redis数据库里，RedisSpider 将在数据库里获取start_urls。

运行爬虫：在爬虫服务器上。进入爬虫文件所在的路径，然后输入命令：scrapy runspider [爬虫名字]。在Redis服务器上，推入一个开始的url链接：redis-cli> lpush [redis_key] start_url开始爬取。

将数据导出存储进入mongodb

# -- coding: utf-8 --

import json

import redis

import pymongo

def main():

# 指定Redis数据库信息

rediscli = redis.StrictRedis(host='localhost', port=6379, db=0)

# 指定MongoDB数据库信息

mongocli = pymongo.MongoClient(host='localhost', port=27017)

# 指定数据库

db = mongocli['数据库名称']

# 指定集合

sheet = db['集合名称']

while True:

# FIFO模式为 blpop，LIFO模式为 brpop，获取键值

source, data = rediscli.blpop(“项目名:items")

data = data.decode('utf-8')

item = json.loads(data)

try:

sheet.insert(item)

print ("Processing:insert successed" % item)

except Exception as err:

print ("err procesing: %r" % item)

if name == 'main':

main()

将数据导出存入 MySQL

首先启动mysql

创建数据库和表

# -- coding: utf-8 --

import json

import redis

import pymysql

def main():

# 指定redis数据库信息

rediscli = redis.StrictRedis(host='localhost', port = 6379, db = 0)

# 指定mysql数据库

mysqlcli = pymysql.connect(host='localhost', user='用户', passwd='密码', db = '数据库', port=3306, charset='utf8')

# 使用cursor()方法获取操作游标

cur = mysqlcli.cursor() while True:

# FIFO模式为 blpop，LIFO模式为 brpop，获取键值

source, data = rediscli.blpop("redis中对应的文件夹:items")

item = json.loads(data.decode('utf-8'))

try:

# 使用execute方法执行SQL INSERT语句

cur.execute("sql语句"，['数据',....])

# 提交sql事务

mysqlcli.commit()

print("inserted successed")

except Exception as err:

#插入失败

print("Mysql Error",err) mysqlcli.rollback()

if name == 'main':

main()

分布式爬虫的优点：

可以充分利用多台机器的带宽。

可以充分利用多台机器的ip地址。

多台机器做，爬取效率更高。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python3 分布式爬虫
背景部门（东方IC、图虫）业务驱动，需要搜集大量图片资源，做数据分析，以及正版图片维权。前期主要用node做爬虫...
字节跳动技术团队阅读 12,309评论 1赞 67
scrapy-redis 分布式爬虫框架
scrapy-redis（0.6）依赖的环境 Scrapy >= 1.0.0 #终于...
吕若凡阅读 5,367评论 0赞 0

python爬虫之Scrapy_Redis分布式爬虫
为甚要学习scrapy_redis？？ Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具...
Pickupthesmokes阅读 4,693评论 0赞 1
使用Docker部署scrapy-redis分布式爬虫
引言在上篇使用Scrapy爬取知乎用户信息我们编写了一个单机的爬虫，这篇记录了使用Scrapy-Redis将其重...
朱晓飞阅读 11,698评论 1赞 24
分布式爬虫总结和使用
使用scrapy-redis：Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：...
沉吟不语阅读 4,149评论 1赞 1

1赞2赞

赞赏

手机看全文