如何在scrapy框架中使用selenium

在我们的爬虫世界中，scrapy和selenium都是必不可少的神器，而且它们经常会在一起使用。但是，如何在scrapy中使用selenium呢？我想有很多小伙伴都遇到过这个问题（因为我也遇到过），那么，接下来就让我们一起来学一学这个操作。

首先我们从豆瓣阅读这个案例说起网址：https://read.douban.com/charts?dcs=original-featured&dcm=normal-nav

我们需要做的需求为：获取每一个排行榜中的内容，每个排行里面只有10条数据

通过分析发现，我们需要提取的数据是通过Ajax加载的，对比其url如下（在此只列举以下三个，分析其他的url也可以）：

长篇连载榜：https://read.douban.com/j/index//charts?type=unfinished_column&index=featured&verbose=1

中篇榜：https://read.douban.com/j/index//charts?type=intermediate_finalized&index=featured&verbose=1

长篇推荐票月榜：https://read.douban.com/j/index//charts?type=most_voted_column&index=featured&verbose=1

对比发现：在每个url中只有type和index的值不同，其余全部相同。所以只要我们找到了type和index值的生成规律，就可以动态的改变其值，从而达到我们的目的。

这时我们冷静的一想，要想发起Ajax请求，就必须要先点击我们需要的那个榜单（即长篇连载榜、中篇榜等等），在我们点击的时候发起了Ajax请求，那么这个值肯定就与这个有关了，通过f12我们发现，该a标签里面的href属性中有type和index的值，而且和我们发起Ajax请求的url里面的值相同，这正好验证了我们的想法

此时的我们兴高采烈的发起请求，接收响应，然后提取数据。但是，我们发现我们提取不到数据，他返回的是一个空列表，而且我们的xpath语法是正确的（正则也可以）。

出现这种问题，肯定是因为我们的xpath语法出现了问题，那前面不是说了我们的xpath语法是正确，为什么现在又说是错误的呢？原因有一下两种：

一：我们提取数据一切以浏览器给我们返回的数据为准，浏览器返回数据时页面结构发生了变化，与我们在f12里面看到的结构不同。

二：浏览器在给我们返回的数据中，根本就没有我们想要的数据。

为了寻找是以上那种原因，我们在网页源代码中查找我们要寻找的内容（这里查找的是长篇连载榜），发现出现的所有数据都不在网页中，而是在一个script标签中，所以这是第二种原因：浏览器给我们返回的数据中根本就没有我们想要的数据

对于这种问题，我们只有通过selenium驱动真实的浏览器来请求页面从而获得我们想要的数据。那么问题来了，在scrapy框架中如何使用selenium呢？这时，我们就又不得不说一下scrapy的运行流程了（流程图画的不好，不喜勿喷）

我们知道scrapy中首先会自动执行start_urls里面的url，因此我们把selenium的方法写在爬虫文件中肯定是不可能的。那么，往哪写呢？这时我们想一想，scrapy每次前往下载器的时候首先要必须经过下载器中间件，所以我们要在那里面添加selenium的方法才能达到我们想要的效果。

接下来，我们就一起在下载器中间件里面使用一下selenium

1）：新创建一个python文件，写我们的中间件（写在middlewares.py里面没有问题，新建文件只是我的个人爱好）

2）：新建一个类，添加process_request(一般将middlewares.py文件里面的process_requests)复制过来

class DbydDownloaderMiddleware:

def process_request(self,request,spider):

return None

3）：这时我们就可以写入selenium了

首先我们需要创建一个初始化函数，即（__init__），因为我们要调用浏览器

def __init__(self):

# 调用浏览器

self.driver = webdriver.Chrome(executable_path=r'D:/chrome/chromedriver.exe')

pass

4）：使用selenium

我们在使用selenium时需要传递一个url，那么这个url从哪里来呢？

其实，这个我们之前就分析过，对每个url进行请求时都要经过下载器中间件，而在process_requests里面有一个request参数那里就有我们需要的信息，此时进行操作的url就是request.url

因此代码如下：

self.driver.get(url=request.url)

# 为了保证页面数据能够全部加载，在这里暂停1秒

time.sleep(1)

# 返回数据

content =self.driver.page_source

# 关闭浏览器

self.driver.close()

这里又有一个问题：scrapy在执行完下载器中间件之后，如果返回None就又会执行原来的操作，即自动对start_urls里面的url进行请求，然后传递给parse函数，此时我们写的中间件就不起作用了。因此，我们需要在这里中断其自动执行的操作，那就是返回一个响应对象，将content（selenium返回的页面内容）传递给parse函数，然后到parse函数里面进行我们想要的操作。那么，如何返回呢？这时就需要导入如下方法

from scrapy.httpimport HtmlResponse

然后我们不再返回None，返回如下信息

return HtmlResponse(url=request.url,body=content,request=request,encoding='utf-8'）

这里的url是告诉这是哪个url的响应，body是响应体，即页面返回的内容。这样我们就成功的在scrapy中使用到了selenium

这个问题我们解决了，那么继续回到我们的案例中，我们是要爬取每个排行榜中的内容，因此当我们将所需要的url拼接成功之后又要发起请求，这时又出现了问题，scrapy每次发起请求都会执行下载器中间件里面的代码，这也就意味着我们那么多请求都要用selenium来发起。我们知道，selenium的运行速度是非常慢的，这大大降低了我们的效率。那么，也就是说我们只需要在第一次发起请求的时候使用一下selenium，其余都不需要。那么，该如何操作呢？

其实这个很简单，那就是在下载器中间件中进行一次判断，如果请求的url是我们首次请求的url，那么就使用selenium，如果不是，那就返回None，让scrapy自动发起请求，这样就ok了。

当然最后一件事不能忘，那就是在settings文件中使用我们的下载器中间件，这样scrapy才会执行我们写的中间件功能。

好了，分析就分析到这，接下来就让我们一起看看代码吧。

这就是我们中间件里面的代码

这是我们爬虫文件里面的代码

这是我们爬虫文件里面提取数据的代码

这是我们item里面的代码

好了，保存数据的代码大家就自己写吧。