「Scrapy」爬虫状态反馈组件 v1.0.0

爬虫服务在服务器上跑着，心里面难免会犯嘀咕，
爬虫死掉了怎么办？
爬虫漏了数据怎么办？
爬虫被网站封禁了怎么办？
目标网站挂了怎么办？
返回页面错误或被跳转怎么办？
...

以上来自一个被迫害妄想症患者的自白(误)
一次性爬取数据可以通过人工看日志来判断，不行就多爬几遍，
但如果是放在服务器上定时爬取的服务怎么办？尤其是已经部署在Docker中的爬虫服务。
如果每天都登进服务器查看Scrapy本地的日志信息，还是很麻烦的。
那么我们就需要一个特定的日志来存放我们的统计数据，每天爬取完毕后发送邮件给管理员。
这样的话爬虫出现问题时管理员就能很快知道，还要能够统计爬取的数据。
本文主要描述尝试在Scrapy爬虫的过程中构建工具的思路与体验，代码写的太水就算了(捂脸)
在Scrapy框架中本身内置Logging，但因为是初学Scrapy，不会构建自己的框架。
因为Logging模块「Level Info」输出就会多出很多无用的信息，排版不清晰和没法提醒等问题。
所以在Scrapy.logging输出日志到文件的基础上，写了自己的日志统计工具来监控爬虫的状态。

设计思路

在爬虫书写的过程中遇到的问题还是很多的，比如：

目标网站宕机或请求错误(404,500,503)
指定DOM不存在或Response.text返回错误内容
网站请求池过载
触发假数据或IP被封禁
数据库报错或操作失败
...

除此之外还希望能够统计以下的数据，比如：

爬取成功的分页条数
爬过的信息条数
已有数据的重复条数
爬虫开始时间 / 结束时间 / 耗时
...

图的左边是爬虫的基本流程，中间部分是触发事件，右侧是执行的统计操作

整理之后得到以下JSON格式来存储统计信息

stat.log = {
    'time': {                # 全局时间
        'start_time': 0,         # 爬虫开始时间
        'end_time': 0,           # 爬虫结束时间
        'consume_time': 0,       # 爬虫总耗时
    },
    'spider1': {             # 爬虫1的信息
        'request_sucess': 0,     # 分页请求成功
        'request_error': 0,      # 分页请求失败
        'data_crawl': 0,         # 爬过的数据项 (爬虫发现的总条目
        'data_new': 0,           # 新增的数据项 (不重复并成功写库的
        'data_error': 0,         # 错误的数据项 (数据项内容请求错误的
        'data_illegal': 0,       # 违规的数据项 (数据项格式检查错误的
        'data_repeat': 0,        # 重复的数据项 (数据库中已有重复数据
        'db_error': 0,           # 数据库错误项 (数据库连接错误等
        'db_operate': 0,         # 数据库操作项 (读写等操作返回值异常
    },
    'spider2': {             # 爬虫2的信息
        'request_success': 0,    # ...
        # ...
    }
    # ...
}

收集反馈

Scrapy的全局执行可以异步执行所有爬虫，
在打开爬虫前初始化时间，结束后记录结束时间并计算耗时

Scrapy管道(pipelines.py)中有从父类继承来的方法 open_spider()，
在管道中实例化类，实例化后存储json中初始化对应数据字段。
从数据库中提取已爬取的条数，并打印反馈。

Scrapy中间件(middlewares.py)中爬虫打开和页面请求进行标注。
spider_opened() 触发显示爬虫打开。
process_spider_input() 当页面请求后触发方法，判断如果是200成功请求，记录请求成功。
在记录请求成功后输出当前爬虫的json日志，防止爬虫进程意外中断看不到记录的情况。
process_spider_exception() 当页面404,500,503...异常时触发该方法，记录请求错误。

在爬虫执行中判断数据的重复/缺少字段/错误/新增等情况

日志输出

日志的输出情况如下

日志的结尾的输出

完整代码

代码写的实在太糟糕了，初学见谅

# statistics.py
# update /18.03.12.1

import time
import json
import logging

class Statistics():
    CUR_LOG = {
        'time': {
            'start_time': 0,  # 开始时间
            'end_time': 0,  # 结束时间
            'consume_time': 0,  # 共耗时
        },
        # 'spider1': {
        #     'request_sucess': 0,  # 请求成功(分页数)
        #     'request_error': 0,  # 请求错误
        #     'data_crawl': 0,  # 爬取到的数量
        #     'data_new': 0,  # 获取到的新数据
        #     'data_error': 0,  # 数据出错
        #     'data_illegal': 0,  # 数据格式错误
        #     'data_repeat': 0,  # 重复的数据
        #     'db_error': 0,  # 数据库系统错误
        #     'db_operate': 0,  # 数据库操作返回错误
        # },
    }
    logger = logging.getLogger('stat')

    def __init__(self, name=None):
        if name:
            self.CUR_LOG[name] = {}
            self.CUR_LOG[name]['request_success'] = 0
            self.CUR_LOG[name]['request_error'] = 0
            self.CUR_LOG[name]['data_crawl'] = 0
            self.CUR_LOG[name]['data_new'] = 0
            self.CUR_LOG[name]['data_error'] = 0
            self.CUR_LOG[name]['data_illegal'] = 0
            self.CUR_LOG[name]['data_repeat'] = 0
            self.CUR_LOG[name]['db_error'] = 0
            self.CUR_LOG[name]['db_operate'] = 0

    def start_time(self):
        self.CUR_LOG['time']['start_time'] = time.time()
        self.logger.warning('{: <6s}'.format('all') \
                            + '{: <17s} '.format('[start_time]') \
                            + time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime()))

    def end_time(self):
        self.CUR_LOG['time']['end_time'] = time.time()
        self.CUR_LOG['time']['consume_time'] \
            = self.CUR_LOG['time']['end_time'] \
              - self.CUR_LOG['time']['start_time']

        self.CUR_LOG['time']['start_time'] \
            = time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime(self.CUR_LOG['time']['start_time']))
        self.CUR_LOG['time']['end_time'] \
            = time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime(self.CUR_LOG['time']['end_time']))

        hours = '{:0>2s}'.format(str(int(self.CUR_LOG['time']['consume_time'] // 3600)))
        minutes = '{:0>2s}'.format(str(int((self.CUR_LOG['time']['consume_time'] // 60) % 60)))
        seconds = '{:0>2s}'.format(str(int(self.CUR_LOG['time']['consume_time'] % 60)))
        self.CUR_LOG['time']['consume_time'] = hours + ':' + minutes + ':' + seconds
        self.logger.warning('{: <6s}'.format('all') \
                            + '{: <17s} '.format('[end_time]') \
                            + time.strftime('%Y-%m-%d-%H:%M:%S', time.localtime()))
        self.logger.warning('{: <6s}'.format('all') \
                            + '{: <17s} '.format('[consume_time]') \
                            + self.CUR_LOG['time']['consume_time'])

    def add_request_success(self, name, msg='', num=1):
        self.CUR_LOG[name]['request_success'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[request_success]') \
                            + str(msg).replace('\n', ' '))

    def add_request_error(self, name, msg='', num=1):
        self.CUR_LOG[name]['request_error'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[request_error]') \
                            + str(msg).replace('\n', ' '))

    def add_data_crawl(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_crawl'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_crawl]') \
                            + str(num))

    def add_data_new(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_new'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_new]') \
                            + str(msg).replace('\n', ' '))

    def add_data_error(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_error'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_error]') \
                            + str(msg).replace('\n', ' '))

    def add_data_illegal(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_illegal'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_illegal]') \
                            + str(msg).replace('\n', ' '))

    def add_data_repeat(self, name, msg='', num=1):
        self.CUR_LOG[name]['data_repeat'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[data_repeat]') \
                            + str(msg).replace('\n', ' '))

    def add_db_error(self, name, msg='', num=1):
        self.CUR_LOG[name]['db_error'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[db_error]') \
                            + str(msg).replace('\n', ' '))

    def add_db_operate(self, name, msg='', num=1):
        self.CUR_LOG[name]['db_operate'] += num
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[db_operate]') \
                            + str(msg).replace('\n', ' '))

    def json_display(self, name=None):
        if name:
            self.logger.warning('{: <6s}'.format(name) \
                                + '{: <17s} '.format('[json_display]') \
                                + str(self.CUR_LOG[name]))
        else:
            self.logger.warning('{: <6s}'.format('all') \
                                + '{: <17s} \n'.format('[json_display]') \
                                + str(json.dumps(self.CUR_LOG, indent=4)))

    def crawled_display(self, name, msg=''):
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[crawled_number]') \
                            + str(msg))

    def open_display(self, name, msg=''):
        self.logger.warning('{: <6s}'.format(name) \
                            + '{: <17s} '.format('[opened]'))

「Scrapy」爬虫状态反馈组件 v1.0.0