如何在scrapy框架中使用selenium

在我们的爬虫世界中,scrapy和selenium都是必不可少的神器,而且它们经常会在一起使用。但是,如何在scrapy中使用selenium呢?我想有很多小伙伴都遇到过这个问题(因为我也遇到过),那么,接下来就让我们一起来学一学这个操作。

首先我们从豆瓣阅读这个案例说起 网址:https://read.douban.com/charts?dcs=original-featured&dcm=normal-nav

我们需要做的需求为:获取每一个排行榜中的内容,每个排行里面只有10条数据

通过分析发现,我们需要提取的数据是通过Ajax加载的,对比其url如下(在此只列举以下三个,分析其他的url也可以):

长篇连载榜:https://read.douban.com/j/index//charts?type=unfinished_column&index=featured&verbose=1

中篇榜:https://read.douban.com/j/index//charts?type=intermediate_finalized&index=featured&verbose=1

长篇推荐票月榜:https://read.douban.com/j/index//charts?type=most_voted_column&index=featured&verbose=1

对比发现:在每个url中只有type和index的值不同,其余全部相同。所以只要我们找到了type和index值的生成规律,就可以动态的改变其值,从而达到我们的目的。

这时我们冷静的一想,要想发起Ajax请求,就必须要先点击我们需要的那个榜单(即长篇连载榜、中篇榜等等),在我们点击的时候发起了Ajax请求,那么这个值肯定就与这个有关了,通过f12我们发现,该a标签里面的href属性中有type和index的值,而且和我们发起Ajax请求的url里面的值相同,这正好验证了我们的想法

此时的我们兴高采烈的发起请求,接收响应,然后提取数据。但是,我们发现我们提取不到数据,他返回的是一个空列表,而且我们的xpath语法是正确的(正则也可以)。

出现这种问题,肯定是因为我们的xpath语法出现了问题,那前面不是说了我们的xpath语法是正确,为什么现在又说是错误的呢?原因有一下两种:

一:我们提取数据一切以浏览器给我们返回的数据为准,浏览器返回数据时页面结构发生了变化,与我们在f12里面看到的结构不同。

二:浏览器在给我们返回的数据中,根本就没有我们想要的数据。

为了寻找是以上那种原因,我们在网页源代码中查找我们要寻找的内容(这里查找的是长篇连载榜),发现出现的所有数据都不在网页中,而是在一个script标签中,所以这是第二种原因:浏览器给我们返回的数据中根本就没有我们想要的数据

对于这种问题,我们只有通过selenium驱动真实的浏览器来请求页面从而获得我们想要的数据。那么问题来了,在scrapy框架中如何使用selenium呢?这时,我们就又不得不说一下scrapy的运行流程了(流程图画的不好,不喜勿喷)


我们知道scrapy中首先会自动执行start_urls里面的url,因此我们把selenium的方法写在爬虫文件中肯定是不可能的。那么,往哪写呢?这时我们想一想,scrapy每次前往下载器的时候首先要必须经过下载器中间件,所以我们要在那里面添加selenium的方法才能达到我们想要的效果。

接下来,我们就一起在下载器中间件里面使用一下selenium

1):新创建一个python文件,写我们的中间件(写在middlewares.py里面没有问题,新建文件只是我的个人爱好)

2):新建一个类,添加process_request(一般将middlewares.py文件里面的process_requests)复制过来

class DbydDownloaderMiddleware:

    def process_request(self,request,spider):

    return None

3):这时我们就可以写入selenium了

首先我们需要创建一个初始化函数,即(__init__),因为我们要调用浏览器

def __init__(self):

    # 调用浏览器

    self.driver = webdriver.Chrome(executable_path=r'D:/chrome/chromedriver.exe')

    pass

4):使用selenium

我们在使用selenium时需要传递一个url,那么这个url从哪里来呢?

其实,这个我们之前就分析过,对每个url进行请求时都要经过下载器中间件,而在process_requests里面有一个request参数那里就有我们需要的信息,此时进行操作的url就是request.url

因此代码如下:

self.driver.get(url=request.url)

# 为了保证页面数据能够全部加载,在这里暂停1秒

time.sleep(1)

# 返回数据

content =self.driver.page_source

# 关闭浏览器

self.driver.close()

这里又有一个问题:scrapy在执行完下载器中间件之后,如果返回None就又会执行原来的操作,即自动对start_urls里面的url进行请求,然后传递给parse函数,此时我们写的中间件就不起作用了。因此,我们需要在这里中断其自动执行的操作,那就是返回一个响应对象, 将content(selenium返回的页面内容)传递给parse函数,然后到parse函数里面进行我们想要的操作。那么,如何返回呢?这时就需要导入如下方法

from scrapy.httpimport HtmlResponse

然后我们不再返回None,返回如下信息

return HtmlResponse(url=request.url,body=content,request=request,encoding='utf-8')

这里的url是告诉这是哪个url的响应,body是响应体,即页面返回的内容。这样我们就成功的在scrapy中使用到了selenium

这个问题我们解决了,那么继续回到我们的案例中,我们是要爬取每个排行榜中的内容,因此当我们将所需要的url拼接成功之后又要发起请求,这时又出现了问题,scrapy每次发起请求都会执行下载器中间件里面的代码,这也就意味着我们那么多请求都要用selenium来发起。我们知道,selenium的运行速度是非常慢的,这大大降低了我们的效率。那么,也就是说我们只需要在第一次发起请求的时候使用一下selenium,其余都不需要。那么,该如何操作呢?

其实这个很简单,那就是在下载器中间件中进行一次判断,如果请求的url是我们首次请求的url,那么就使用selenium,如果不是,那就返回None,让scrapy自动发起请求,这样就ok了。

当然最后一件事不能忘,那就是在settings文件中使用我们的下载器中间件,这样scrapy才会执行我们写的中间件功能。

好了,分析就分析到这,接下来就让我们一起看看代码吧。


这就是我们中间件里面的代码


这是我们爬虫文件里面的代码


这是我们爬虫文件里面提取数据的代码


这是我们item里面的代码

好了,保存数据的代码大家就自己写吧。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 221,198评论 6 514
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,334评论 3 398
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,643评论 0 360
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,495评论 1 296
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,502评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,156评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,743评论 3 421
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,659评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,200评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,282评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,424评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,107评论 5 349
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,789评论 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,264评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,390评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,798评论 3 376
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,435评论 2 359