Scrapy爬虫实战项目【002】 - 抓取360摄影美图

爬取360摄影美图

参考来源:《Python3网络爬虫开发实战》 第497页 作者:崔庆才

目的:使用Scrapy爬取360摄影美图,保存至MONGODB数据库并将图片下载至本地

目标网址:http://image.so.com/z?ch=photography

分析/知识点:

  1. 爬取难度:
    a. 入门级,静态网页中不含图片信息,通过AJAX动态获取图片并渲染,返回结果为JSON格式;

  2. 图片下载处理:使用内置的ImagesPipeline,进行少量方法改写;

  3. MONGODB存储;

实际步骤:

  1. 创建Scrapy项目/images(spider)
Terminal: > scrapy startproject images360
Terminal: > scrapy genspider images image.so.com
  1. 配置settings.py文件
# MONGODB配置
MONGO_URI = 'localhost'
MONGO_DB = 'images360'

# 下载图片默认保存目录(ImagePipelin要用到)
IMAGES_STORE = './images'

# 嘿嘿嘿...
ROBOTSTXT_OBEY = False

# headers
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}

# 启用Pipeline(ImagePipeline优先级要最高)
ITEM_PIPELINES = {
    'images360.pipelines.ImagePipeline': 300,
    'images360.pipelines.MongoPipeline': 301,
}
  1. 编写items.py文件
from scrapy import Item, Field

# 图片信息全部获取
class MovieItem(Item):
    cover_height = Field()
    cover_imgurl = Field()
    cover_width = Field()
    dsptime = Field()
    group_title = Field()
    grpseq = Field()
    id = Field()
    imageid = Field()
    index = Field()
    label = Field()
    qhimg_height = Field()
    qhimg_thumb_url = Field()
    qhimg_url = Field()
    qhimg_width = Field()
    tag = Field()
    total_count = Field()
  1. 编写pipelines.py文件
    a) ImagePipeline: 根据Scrapy官方文档修改:
    Downloading and processing files and images
# 图片下载Pipeline
class ImagePipeline(ImagesPipeline):
    def file_path(self, request, response=None, info=None):
        '''
        重写file_path方法,获取图片名
        '''
        url = request.url
        file_name = url.split('/')[-1]
        return file_name

    def item_completed(self, results, item, info):
        '''
        将下载失败的图片剔除,不保存至数据库
        '''
        image_paths = [x['path'] for ok, x in results if ok]
        if not image_paths:
            raise DropItem('Image Downloaded Failed')
        return item


    def get_media_requests(self, item, info):
        '''
        重新请求图片url,调度器重新安排下载
        '''
        yield Request(url=item['qhimg_url'])

b) MongoPipeline: 根据Scrapy官方文档修改:https://doc.scrapy.org/en/latest/topics/item-pipeline.html?highlight=mongo 代码略

5. 编写spiders > images.py文件
注意:
a) 重写start_requests(self);
b) 动态获取请求url;动态Field赋值并生成对应的ImageItem

# 每张图片动态赋值并生产ImageItem
for image in images:
    item = ImageItem()
    for field in item.fields:
        if field in image.keys():
            item[field] = image.get(field)
    yield item

c) 完整代码如下:

import json
from scrapy import Spider, Request
from images360.items import ImageItem

class ImagesSpider(Spider):
    name = 'images'
    # allowed_domains = ['image.so.com']
    # start_urls = ['http://image.so.com/z?ch=photography']

    url = 'http://image.so.com/zj?ch=photography&sn={sn}&listtype=new&temp=1'

    # 重写
    def start_requests(self):
        # 循环生产请求前1200张照片(sn = [1-41])
        for sn in range(1, 41):
            yield Request(url=self.url.format(sn=sn * 30), callback=self.parse)

    def parse(self, response):
        results = json.loads(response.text)
        # 判断list是否在results的keys中
        if 'list' in results.keys():
            images = results.get('list')

        # 每张图片动态赋值并生产ImageItem
        for image in images:
            item = ImageItem()
            for field in item.fields:
                if field in image.keys():
                    item[field] = image.get(field)
            yield item

6. 运行结果

temp-1.png

temp-2.png

小结

  1. 入门级项目,进一步熟悉Scrapy的使用流程;
  2. 熟悉网页AJAX返回结果的获取和解析;
  3. 初步了解ImagesPipeline的使用方法,以及学会如何根据需要进行改写。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容

  • scrapy学习笔记(有示例版) 我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
    陈思煜阅读 12,670评论 4 46
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 31,915评论 2 89
  • 前一篇文章介绍了很多关于scrapy的进阶知识,不过说归说,只有在实际应用中才能真正用到这些知识。所以这篇文章就来...
    乐百川阅读 2,302评论 0 7
  • 第6章、第7章 第6章主要介绍了一些主动学习的方法,来提升自己的学习能力。 记住:大脑不是一个用于填充的容器,而是...
    将进酒wly阅读 170评论 0 0
  • 这个星期学习海英老师的课程后,把视频中的游戏都和孩子玩过了一遍。不仅得到了锻炼,还给家里带来了许多欢乐的气氛。俩宝...
    译文_阅读 516评论 0 0