三. Scrapy项目调试

爬取网址:http://books.toscrape.com/index.html
爬取信息:书名,价格,评价等级,产品编码,库存量,评价数量
爬取方式:scrapy框架
存储方式:csv文件

image.png
1. 除了可以使用Chrome的开发者工具,还可以使用scrapy shell命令,在交互式环境下调试。

然后用fetch(http://books.toscrape.com/index.html)获取请求信息。

image.png

  • 也可以采用下列带URL的命令:
    scrapy shell http://books.toscrape.com/index.html

  • 如果请求成功,可以看到:


    image.png
2. 使用view(response)查看respone包含的页面:

view(response)

  • view函数是scrapy爬虫下载的页面,比直接打开浏览器下载的页面更靠谱,因为有时这两个页面是不同的,常规操作下有时还必须借助查看网页源代码来确认元素的位置。
    -由于response包含的页面也是用浏览器打开,接下来我们使用chrome进行元素审查。


    image.png
3.提取信息

1)由于我们需要获取的信息都在详细页面里面,我们需要先提取链接,可以使用LinkExtractor:
用三条语句就可以获取到链接信息了,而且使用LinkExtractor时不需要告诉链接的具体位置,只需要告诉链接所在的范围,非常方便。


image.png

此处提取信息,以下几条命令提取出来的信息是一样的,请看:
le = LinkExtractor(restrict_css='article.product_pod')
le = LinkExtractor(restrict_css='article.product_pod div a')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')
le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]/div/a')

2)获取下一页的链接地址

3)提取书的详细信息
使用fetch()命令,然后用view(response)即可看到请求页面。


image.png

接下来获取书名,下述两种方法均可正确获取书名,xpath效率更高,由于div含有多个属性,此处使用了contains语法。


image.png

当然,由于书名,价格,评价等级以及库存量均在一处,可以先找出大范围,然后再确定具体信息:


image.png

其他信息在下面的范围内,代码如下(其中也包括库存数量,选一个即可):


image.png

4)scrapy shell的退出:exit()

image.png

4.编码实现

1)创建项目

  • 新建项目scrapy startproject books
  • 利用模板生成spider文件scrapy genspider booksspider books.toscrape.com
    image.png

上述生成的booksspider.py文件:

# -*- coding: utf-8 -*-
import scrapy


class BooksspiderSpider(scrapy.Spider):
    name = 'booksspider'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        pass

2)items.py

import scrapy

class BooksItem(scrapy.Item):
    name = scrapy.Field()            #书名
    price = scrapy.Field()           #价格
    review_rating = scrapy.Field()   #评价等级(1-5星)
    review_num = scrapy.Field()      #评价数量
    upc = scrapy.Field()             #产品编码
    stock = scrapy.Field()           #库存量

3)booksspider.py

# -*- coding: utf-8 -*-
import scrapy
from books.items import BooksItem
from scrapy.linkextractors import LinkExtractor

class BooksspiderSpider(scrapy.Spider):
    name = 'booksspider'
    allowed_domains = ['books.toscrape.com']
    start_urls = ['http://books.toscrape.com/']

    def parse(self, response):
        ##提取每本书的链接
        le = LinkExtractor(restrict_xpaths='//article[@class="product_pod"]')  ##具体位置在//article/div/a的标签中
        detail_urls = le.extract_links(response)
        for detail_url in detail_urls:
            yield scrapy.Request(detail_url.url,callback=self.parse_book)  ##记得使用.url提取出extract_links里面的链接。

        ##提取下一页的链接
        le2 = LinkExtractor(restrict_xpaths='//li[@class="next"]')
        next_url = le2.extract_links(response)[0].url
        yield scrapy.Request(next_url,callback=self.parse)


    def parse_book(self,response):
        ##提取每本书的具体信息
        item = BooksItem()
        info = response.xpath('//div[contains(@class,"product_main")]')
        item['name'] = info.xpath('h1/text()').extract()[0]
        item['price'] = info.xpath('p/text()').extract()[0]
        item['review_rating'] = info.xpath('p[3]/@class').re('star-rating (\w+)')[0]

        info2 = response.xpath('//table[contains(@class,"table")]')
        item['upc'] = info2.xpath('//tr[1]/td/text()').extract_first()
        item['stock'] = info2.xpath('//tr[6]/td/text()').re_first('\d+')
        #item['stock'] = info2.xpath('//tr[last()-1]/td/text()').re_first('\d+')  #使用last()获取标签的最后一个数字
        item['review_num'] = info2.xpath('//tr[7]/td/text()').extract_first()
        #item['review_num'] = info2.xpath('//tr[last()]/td/text()').extract_first()
        yield item

运行scrapy crawl booksspider -o books.csv,结果为:

image.png

4)改进点
①指定各列的次序
在settings.py中加入以下代码:
FEED_EXPORT_FIELDS = ['name','upc','stock','price','review_rating','review_num']
②将评价等级中的One,Two,Three转变成1,2,3
在pipelines.py中加入以下代码:

class BooksPipeline(object):

    review_rating_map = {
        'One':1,
        'Two':2,
        'Three':3,
        'Four':4,
        'Five':5
    }
    
    def process_item(self, item, spider):
        # rating = item.get('review_rating')  #获取review_rating的数据
        rating = item['review_rating']  #与上面的语句等价
        item['review_rating'] = self.review_rating_map[rating]
        
        return item

在setttings.py中加入:

ITEM_PIPELINES = {
   'books.pipelines.BooksPipeline': 300,
}

结果为:


image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,864评论 6 494
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,175评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,401评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,170评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,276评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,364评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,401评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,179评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,604评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,902评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,070评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,751评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,380评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,077评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,312评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,924评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,957评论 2 351

推荐阅读更多精彩内容

  • scrapy startproject toscrape_book scrapy genspider books...
    松爱家的小秦阅读 677评论 0 0
  • scrapy是python最有名的爬虫框架之一,可以很方便的进行web抓取,并且提供了很强的定制型,这里记录简单学...
    bomo阅读 2,103评论 1 11
  • 来吧!小伙伴们开始我们的第一个scrapy项目。 按照工作项目的流程,先明确一下我们的项目需求。 项目需求 一个菜...
    python_菜鸟阅读 344评论 0 1
  • 效果如下: 从左到右依次是书的upc编码,名字,类型,储存量,价格,评分,评分数目,简介 网址是这个http://...
    松爱家的小秦阅读 601评论 0 0
  • (更多旅游游记可关注微信公众号“行走小记”,回复旅游有惊喜哦) 今年年初还在放寒假的时候,我去徐州找我的最最最最好...
    木兮25阅读 424评论 0 1