十二. 项目实战：爬取京东商城中的书籍信息

爬取网址：https://search.jd.com/Search?keyword=python
爬取信息：书名，价格，出版社，日期
爬取方式：scrapy框架 + splash
存储方式：csv

页面如下，可以看到python相关的图书超过6000本。

不过最终只能看到100页，也就是6000本的信息。

京东图书每个页面有60本图书，页面打开时首先只加载30本书，通过滚动条的下拉，动态加载后面的30本书。所以我们要执行一下JavaScript代码使页面滚动到页面底部把剩余的30本书加载出来。
翻页位于页面的底部，可以定位翻页部分然后用scrollIntoView(true)实现拖拽显示翻页部分，或使用window.scroll("起始点“,“结束点”)来实现页面的滚动加载。

翻页规律：第一页是page=1,动态加载部分是page2,第二页是page3，动态加载部分是page4。由于动态加载部分由splash完成，对于翻页来说就是1,3,5向上叠加即可。

去除掉URL中一些没有用处的数据项，链接格式为：
https://search.jd.com/Search?keyword=python&enc=utf-8&page=3

spider的代码为：

# -*- coding: utf-8 -*-
import scrapy
from scrapy_splash import SplashRequest

lua_script = '''
function main(splash)                     
    splash:go(splash.args.url)        --打开页面
    splash:wait(2)                    --等待加载
    splash:runjs("document.getElementsByClassName('page')[0].scrollIntoView(true)") --运行js代码
    splash:wait(2)                    --等待加载
    return splash:html()              --返回页面数据
end
'''

class JdPythonSpider(scrapy.Spider):
    name = 'jd_python'
    allowed_domains = ['jd.com']
    keyword = "python"  #填关键字
    base_urls = 'https://search.jd.com/Search?keyword={}&enc=utf-8'.format(keyword)

    ##重写start request方法，指向parse_urls
    def start_requests(self):
        yield scrapy.Request(self.base_urls,callback=self.parse_urls)

    def parse_urls(self,response):
        pageNum = response.xpath('//span[@class="fp-text"]/i/text()').extract_first()

        # 构造每页的url，向Splash的execute端点发送请求
        for i in range(pageNum):
            url = "{}page={}".format(self.base_urls,i*2+1)
            yield SplashRequest(url,endpoint="execute",args={"lua_source",lua_script},cache_args=['lua_source'],callback=self.parse)

    def parse(self, response):
        # 获取一个页面中每本书的名字和价格等
        for sel in response.css('ul.gl-warp.clearfix > li.gl-item'):
            yield {
                'name': sel.css('div.p-name').xpath('string(.//em)').extract_first(),
                'price': sel.css('div.p-price i::text').extract_first(),
                'press': sel.css('span.p-bi-store a::text').extract_first(),
                'date': sel.css('span.p-bi-date::text').extract_first(),
            }

settings.py中添加以下信息：

SPLASH_URL = 'http://192.168.99.100:8050' #splash服务地址

#开启scrapy_splash的两个下载中间件，并调整HttpCompressionMiddleware的次序
DOWNLOADER_MIDDLEWARES = {
   'scrapy_splash.SplashCookiesMiddleware': 723,
   'scrapy_splash.SplashMiddleware':725,
   'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware':810,
}

#设置去重过滤器
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

#支持cache_args(可选)
SPIDER_MIDDLEWARES = {
   'scrapy_splash.SplashDeduplicateArgsMiddleware': 100,
}
USER_AGENT ='Mozilla/5.0 (Windows NT 10.0; WOW64) \
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3294.6 Safari/537.36'   
ROBOTSTXT_OBEY = False 
DOWNLOAD_DELAY = 3

在cmd运行：scrapy crawl jd_python -o books.csv
结果为：

注：结果对data进行了降序排序。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,492评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,048评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,927评论 0赞 358
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,293评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,309评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,024评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,638评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,546评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,073评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,188评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,321评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,998评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,678评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,186评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,303评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,663评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,330评论 2赞 358

十二. 项目实战：爬取京东商城中的书籍信息

推荐阅读更多精彩内容