登录注册写文章

Scrapy实战-下载豆瓣图书封面

Scrapy实战-下载豆瓣图书封面

紧接着再识Scrapy-爬取豆瓣图书，我们打算把每一本图书的封面都爬下来，毕竟下载图片是一件很棒的事。可以凭借这招去搜集各种表情包呢，还可以省了在某榴辛辛苦苦一个一个打开网页的烦恼呢。
根据官方文档，下载图片其实pipeline.py的额外工作而已，大致分为以下几步

在Spider中，额外定义一个image_urls用来存放图片链接的 item；
这个item会从spider中传递到pipeline中
在这个item到了ImagesPipeline后，里面的url经由scheduler插队到downloader进行下载
下载完成后，Scrapy会新建一个files字段用于存放结果。
需要额外安装PIL保证正常工作。

使用方法

在settings.py的ITEM_PIPELINES中加入
'scrapy.pipelines.images.ImagesPipeline':1,
在items.py中建立相应的item.
import scrapy
class MyItem(scrapy.Item):
# ... 其他字段 ...
image_urls = scrapy.Field()
images = scrapy.Field()
在settings.py中添加图片存放目录,如
IMAGES_STORE = 'G:/images'
（非必须）假设你觉得image_urls和images不够霸气，想换个名字，如douban_urls，douban你可以在settings.py中增加如下字段，用来声明新的字段：
IMAGES_URLS_FIELD = ‘douban_urls'
IMAGES_RESULT_FIELD = 'douban'

文件命名格式为：下载图片url的SHA1 hash值，不喜欢的话可以看这里进行深入研究，反正我就看图，凑合用了。

最后编辑于：2017.12.03 06:26:41

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 14,378评论 4赞 46
《Learning Scrapy》（中文版）第7章配置和管理
序言第1章 Scrapy介绍第2章理解HTML和XPath第3章爬虫基础第4章从Scrapy到移动应用第5...
SeanCheney阅读 9,814评论 5赞 9

Python爬虫之Scrapy+Mysql+Mongodb爬豆瓣top250电影
学习python时，爬虫是一种简单上手的方式，应该也是一个必经阶段。本项目用Scrapy框架实现了抓取豆瓣top2...
豌豆花下猫阅读 5,031评论 0赞 6
Scrapy爬取豆瓣电影Top250
这两天摸索了下scrapy，刚看文档的时候觉得有点生无可恋，scrapy框架个人还是觉得比较难懂的，需要学习的地方...
Treehl阅读 10,993评论 7赞 10
关于tomcat不同版本的maxPostSize配置差异
关于tomcat不同版本的maxPostSize配置差异不多说直接干货 tomcat7.0.63之前： maxP...
IBegins阅读 7,233评论 0赞 1

友情链接更多精彩内容

3赞4赞

手机看全文