Scrapy使用Pipeline写入MongoDB

  1. pipelines.py中写入MongoDBPipeline,代码如下:
from scrapy import Item
import pymongo
class MongoDBPipeline(object):
    """
    将item写入MongoDB
    """

    @classmethod
    def from_crawler(cls, crawler):
        cls.DB_URL = crawler.settings.get('MONGO_DB_URI', 'mongodb://localhost:27017')
        cls.DB_NAME = crawler.settings.get('MONGO_DB_NAME', 'scrapy_data')
        return cls()

    def open_spider(self, spider):
        self.client = pymongo.MongoClient(self.DB_URL)
        self.db = self.client[self.DB_NAME]

    def close_spider(self, spider):
        self.client.close()

    def process_item(self, item, spider):
        collection = self.db[spider.name]
        post = dict(item) if isinstance(item, Item) else item
        collection.insert_one(post)
        return item
  • 增加类方法from_crawler(cls, crawler),替代在类属性中定义DB_URL和DB_NAME。
  • 如果一个Item Pipeline定义了from_cwawler方法,Scrapy就会调用该方法来创建Item Pipeline对象,该方法有两个参数
    • ​cls Item Pipeline类的对象(这里为MongoDBPipeline类对象)
    • ​crawler Crawler是Scrapy中的一个核心对象,可以通过crawler的settings属性访问该配置文件。
  • 在from_crawler方法中,读取配置文件中的MONGO_DB_URL和MONGO_DB_NAME(不存在则使用默认值),赋给cls的属性,即MongoDBPipeline类属性。
  • 在Spider整个爬取过程中,数据库的连接和关闭操作只需要进行一次,应在开始处理数据之前连接数据库,并在处理完所有数据之后关闭数据库。因此实现以下两个方法(在Scrapy打开和关闭时被调用):
    • ​open_spider(spider)
    • ​close_spider(spider)
      分别在open_spider和close_spider方法中实现数据库的连接与关闭。
  • 在process_item中实现MongoDB数据库的写入操作,使用self.db和spider.name获取一个集合(collection),然后将数据插入该集合,集合对象的insert_one方法需传入一个字典对象(不能传入Item对象),因此在调用前先对item的类型进行判断,如果item是Item对象,就将其转换为字典。
  1. 在配置文件settings.py中对所要使用的数据库进行设置:
MONGO_DB_URI = 'mongodb://localhost:27017'
MONGO_DB_NAME = 'scrapy_data'
  1. 运行爬虫查看。

若没有MongoDB,可查看此文章:https://www.jianshu.com/p/1ab7f03f4e5a
运行Docker命令进入MongoDB:

docker exec -it mongo_db mongo
>use scrapy_data
>db.books.count()
1000
>db.books.find()
...

即可查看数据库中的结果

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化...
    Evtion阅读 11,149评论 12 18
  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 14,366评论 4 46
  • 这些组件最重要的思路就是拦截,即过滤 item管道:作用一:入库 校验:一是可以在管道,但主要是在item定义字段...
    怂恿的大脑阅读 4,659评论 0 0
  • scrapy源码https://github.com/scrapy/scrapy/tree/master/scra...
    木鱼非鱼阅读 4,369评论 0 1
  • 最近,知名作家六六投诉京东一事,引发了大家的广泛关注。起因是这样的,六六一朋友在京东全球购平台购买了某款护...
    方舟say阅读 4,464评论 0 0