零、所用环境
macOS 10.14.1
Python 3.6.3
scrapy 1.5.1
一、文件下载(基于FilesPipeline)
适用于下载包括但不限于PDF的各种文件。
1、item.py(files未显性用到)
2、spider_name.py(yield url列表即可)
3、pipelines.py
注:FilePipeline为自定义Pipeline名字。
4、settings.py
注:file_download为项目名,FilePipeline为pipelines.py中自定义的Pipeline。
二、图片下载(基于ImagesPipeline)
仅适用于下载图片(与文件下载同理)。
1、item.py
2、spider_name.py
3、pipelines.py
4、settings.py
三、FilesPipeline和ImagesPipeline的区别
四、参考资料
1、Scrapy下载及处理文件和图片(官方文档)
https://scrapy-chs.readthedocs.io/zh_CN/1.0/topics/media-pipeline.html#files-pipeline
注:亲测官方demo都可跑通,一二两个自定义pipelines也是基于官方demo完成。
2、使用FilesPipeline和ImagesPipeline