scrapy1.5自定义下载文件名称

爬坑总结

百度上搜了好多地方都是少些了在setting.py的配置然后看着老版本的文档走了不少弯路、其实文档上说的还是比较清楚的、比百度出来的结果好多了

1、配置

在setting.py中加入以下代码，其实创建的时候就已经自动添加了只不过系统默认注释掉了打开就好了

ITEM_PIPELINES = {
   'enduction.pipelines.EnductionPipeline': 300,
}

2、编写代码

编写pipelines代码

    def get_media_requests(self, item, info):
        print('-----')
        for file_urls in item['file_urls']:
            yield scrapy.Request(file_urls, meta={'item': item})

    def file_path(self, request, response=None, info=None):
        item = request.meta['item']  # 通过上面的meta传递过来item
        down_file_name = './full/{0}.zip'.format(item['title'])
        return down_file_name

3、注意

系统默认会有process_item函数、一定要注释掉，否则系统不会调用get_media_requests 方法。这个地方所有的教程都没写，坑爹以为没事。结果爬坑爬的类死了

    def process_item(self, item, spider):
        pass

scrapy1.5自定义下载文件名称

爬坑总结

1、配置

2、编写代码

3、注意

推荐阅读更多精彩内容