在我们的爬虫世界中,scrapy和selenium都是必不可少的神器,而且它们经常会在一起使用。但是,如何在scrapy中使用selenium呢?我想有很多小伙伴都遇到过这个问题(因为我也遇到过),那么,接下来就让我们一起来学一学这个操作。
首先我们从豆瓣阅读这个案例说起 网址:https://read.douban.com/charts?dcs=original-featured&dcm=normal-nav
我们需要做的需求为:获取每一个排行榜中的内容,每个排行里面只有10条数据
通过分析发现,我们需要提取的数据是通过Ajax加载的,对比其url如下(在此只列举以下三个,分析其他的url也可以):
长篇连载榜:https://read.douban.com/j/index//charts?type=unfinished_column&index=featured&verbose=1
中篇榜:https://read.douban.com/j/index//charts?type=intermediate_finalized&index=featured&verbose=1
长篇推荐票月榜:https://read.douban.com/j/index//charts?type=most_voted_column&index=featured&verbose=1
对比发现:在每个url中只有type和index的值不同,其余全部相同。所以只要我们找到了type和index值的生成规律,就可以动态的改变其值,从而达到我们的目的。
这时我们冷静的一想,要想发起Ajax请求,就必须要先点击我们需要的那个榜单(即长篇连载榜、中篇榜等等),在我们点击的时候发起了Ajax请求,那么这个值肯定就与这个有关了,通过f12我们发现,该a标签里面的href属性中有type和index的值,而且和我们发起Ajax请求的url里面的值相同,这正好验证了我们的想法
此时的我们兴高采烈的发起请求,接收响应,然后提取数据。但是,我们发现我们提取不到数据,他返回的是一个空列表,而且我们的xpath语法是正确的(正则也可以)。
出现这种问题,肯定是因为我们的xpath语法出现了问题,那前面不是说了我们的xpath语法是正确,为什么现在又说是错误的呢?原因有一下两种:
一:我们提取数据一切以浏览器给我们返回的数据为准,浏览器返回数据时页面结构发生了变化,与我们在f12里面看到的结构不同。
二:浏览器在给我们返回的数据中,根本就没有我们想要的数据。
为了寻找是以上那种原因,我们在网页源代码中查找我们要寻找的内容(这里查找的是长篇连载榜),发现出现的所有数据都不在网页中,而是在一个script标签中,所以这是第二种原因:浏览器给我们返回的数据中根本就没有我们想要的数据
对于这种问题,我们只有通过selenium驱动真实的浏览器来请求页面从而获得我们想要的数据。那么问题来了,在scrapy框架中如何使用selenium呢?这时,我们就又不得不说一下scrapy的运行流程了(流程图画的不好,不喜勿喷)
我们知道scrapy中首先会自动执行start_urls里面的url,因此我们把selenium的方法写在爬虫文件中肯定是不可能的。那么,往哪写呢?这时我们想一想,scrapy每次前往下载器的时候首先要必须经过下载器中间件,所以我们要在那里面添加selenium的方法才能达到我们想要的效果。
接下来,我们就一起在下载器中间件里面使用一下selenium
1):新创建一个python文件,写我们的中间件(写在middlewares.py里面没有问题,新建文件只是我的个人爱好)
2):新建一个类,添加process_request(一般将middlewares.py文件里面的process_requests)复制过来
class DbydDownloaderMiddleware:
def process_request(self,request,spider):
return None
3):这时我们就可以写入selenium了
首先我们需要创建一个初始化函数,即(__init__),因为我们要调用浏览器
def __init__(self):
# 调用浏览器
self.driver = webdriver.Chrome(executable_path=r'D:/chrome/chromedriver.exe')
pass
4):使用selenium
我们在使用selenium时需要传递一个url,那么这个url从哪里来呢?
其实,这个我们之前就分析过,对每个url进行请求时都要经过下载器中间件,而在process_requests里面有一个request参数那里就有我们需要的信息,此时进行操作的url就是request.url
因此代码如下:
self.driver.get(url=request.url)
# 为了保证页面数据能够全部加载,在这里暂停1秒
time.sleep(1)
# 返回数据
content =self.driver.page_source
# 关闭浏览器
self.driver.close()
这里又有一个问题:scrapy在执行完下载器中间件之后,如果返回None就又会执行原来的操作,即自动对start_urls里面的url进行请求,然后传递给parse函数,此时我们写的中间件就不起作用了。因此,我们需要在这里中断其自动执行的操作,那就是返回一个响应对象, 将content(selenium返回的页面内容)传递给parse函数,然后到parse函数里面进行我们想要的操作。那么,如何返回呢?这时就需要导入如下方法
from scrapy.httpimport HtmlResponse
然后我们不再返回None,返回如下信息
return HtmlResponse(url=request.url,body=content,request=request,encoding='utf-8')
这里的url是告诉这是哪个url的响应,body是响应体,即页面返回的内容。这样我们就成功的在scrapy中使用到了selenium
这个问题我们解决了,那么继续回到我们的案例中,我们是要爬取每个排行榜中的内容,因此当我们将所需要的url拼接成功之后又要发起请求,这时又出现了问题,scrapy每次发起请求都会执行下载器中间件里面的代码,这也就意味着我们那么多请求都要用selenium来发起。我们知道,selenium的运行速度是非常慢的,这大大降低了我们的效率。那么,也就是说我们只需要在第一次发起请求的时候使用一下selenium,其余都不需要。那么,该如何操作呢?
其实这个很简单,那就是在下载器中间件中进行一次判断,如果请求的url是我们首次请求的url,那么就使用selenium,如果不是,那就返回None,让scrapy自动发起请求,这样就ok了。
当然最后一件事不能忘,那就是在settings文件中使用我们的下载器中间件,这样scrapy才会执行我们写的中间件功能。
好了,分析就分析到这,接下来就让我们一起看看代码吧。
好了,保存数据的代码大家就自己写吧。