Scrapy使用Pipeline写入MongoDB

在pipelines.py中写入MongoDBPipeline,代码如下:

from scrapy import Item
import pymongo
class MongoDBPipeline(object):
    """
    将item写入MongoDB
    """

    @classmethod
    def from_crawler(cls, crawler):
        cls.DB_URL = crawler.settings.get('MONGO_DB_URI', 'mongodb://localhost:27017')
        cls.DB_NAME = crawler.settings.get('MONGO_DB_NAME', 'scrapy_data')
        return cls()

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.DB_URL)
        self.db = self.client[self.DB_NAME]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        collection = self.db[spider.name]
        post = dict(item) if isinstance(item, Item) else item
        collection.insert_one(post)
        return item

增加类方法from_crawler(cls, crawler)，替代在类属性中定义DB_URL和DB_NAME。
如果一个Item Pipeline定义了from_cwawler方法，Scrapy就会调用该方法来创建Item Pipeline对象，该方法有两个参数
- cls Item Pipeline类的对象(这里为MongoDBPipeline类对象)
- crawler Crawler是Scrapy中的一个核心对象，可以通过crawler的settings属性访问该配置文件。
在from_crawler方法中，读取配置文件中的MONGO_DB_URL和MONGO_DB_NAME(不存在则使用默认值)，赋给cls的属性，即MongoDBPipeline类属性。
在Spider整个爬取过程中，数据库的连接和关闭操作只需要进行一次，应在开始处理数据之前连接数据库，并在处理完所有数据之后关闭数据库。因此实现以下两个方法(在Scrapy打开和关闭时被调用):
- open_spider(spider)
- close_spider(spider)
  分别在open_spider和close_spider方法中实现数据库的连接与关闭。
在process_item中实现MongoDB数据库的写入操作，使用self.db和spider.name获取一个集合(collection)，然后将数据插入该集合，集合对象的insert_one方法需传入一个字典对象(不能传入Item对象)，因此在调用前先对item的类型进行判断，如果item是Item对象，就将其转换为字典。

在配置文件settings.py中对所要使用的数据库进行设置:

MONGO_DB_URI = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'scrapy_data'

运行爬虫查看。

若没有MongoDB，可查看此文章：https://www.jianshu.com/p/1ab7f03f4e5a
运行Docker命令进入MongoDB:

docker exec -it mongo_db mongo
>use scrapy_data
>db.books.count()
1000
>db.books.find()
...

即可查看数据库中的结果

Scrapy使用Pipeline写入MongoDB

推荐阅读更多精彩内容