Scrapy+Selenium爬取动态渲染网站

1.简介

Selenium是一个用于Web应用程序测试的工具。直接运行在浏览器中，就像真正的用户在操作一样。支持的浏览器包括IE（7, 8, 9, 10, 11），Firefox，Safari，Chrome，Opera等，在爬虫上则是模拟正常用户访问网页并获取数据。

2.安装 Selenium

> pip install selenium

3.安装驱动

模拟真正的用户操作当然需要选择好用来操作的浏览器，根据浏览器来安装相应的驱动调起。

3.1 Chrome

使用selenium驱动chrome浏览器需要下载chromedriver，而且chromedriver版本需要与chrome的版本对应，版本错误的话则会运行报错。

查看chrome的版本，可通过帮助 > 关于Google Chrome(G)。

1563419114.jpg

下载chromedriver可以通过淘宝镜像地址：http://npm.taobao.org/mirrors/chromedriver/ 。最新的镜像与Chrome同名，尽量选择版本相近的避免兼容问题，镜像下notes.txt可查看当前驱动支持的版本。

1563418582.jpg

选择合适的版本下载，下载完解压将chromedriver.exe放在有设置环境变量的目录下，小编是放在python的安装目录下的，即python.exe所在的目录。

1563419759.jpg

3.2 Firefox

使用selenium驱动Firefox浏览器需要下载geckodriver，查看浏览器版本通过帮助 > 关于 Firefox。

1563420565.jpg

下载geckodriver可通过mozilla的仓库地址：https://github.com/mozilla/geckodriver/releases。

选择合适的版本下载，解压后geckodriver.exe同样也是放在python的安装目录下。

1563420774.jpg

3.3 其它浏览器驱动下载

Opera：http://npm.taobao.org/mirrors/operadriver/

IE：http://selenium-release.storage.googleapis.com/index.html （版本号要与selenium的版本一致，查看安装的selenium版本，可通过pip show selenium）如果没有vpn可能会打不开，可点击下载3.14.0版本的。

4.Selenium使用

4.1 Chrome 配置

options = webdriver.ChromeOptions()
## 无界面
# options.add_argument('--headless')
driver = webdriver.Chrome(chrome_options=options)
driver.set_window_size(1366, 768)
driver.set_page_load_timeout(self.timeout)

注意Chrome可能需要管理员权限相关配置，小编习惯性用Firefox😂

4.2 Firefox 配置

# 实例化参数对象
options = webdriver.FirefoxOptions()
# 无界面
# options.add_argument('--headless')
driver = webdriver.Firefox(firefox_options=options)
driver.set_window_size(1400, 700)
driver.set_page_load_timeout(self.timeout)

4.3 不显示打开浏览器的界面

有的时候我们不想要看到爬取的一步步操作，只关心结果，则可以在参数配置

# 无界面
options.add_argument('--headless')

4.4 禁用浏览器弹窗

不是页面弹窗，是浏览器设置里的弹窗。在打开浏览器时，使用参数配置关闭
Firefox

options.set_preference('dom.webnotifications.enabled', False)
options.set_preference('dom.push.enabled', False)

Chrome

 prefs = {
     'profile.default_content_setting_values': {
         'notifications': 2
     }
 }
 options.add_experimental_option('prefs', prefs)

4.5 driver属性和方法

页面加载
```
driver.get("http://www.baidu.com")
```

关闭浏览器

# 爬虫结束关闭浏览器
driver.close()

获取当前url
```
driver.current_url
```
刷新
```
driver.refresh()
```
页面标题
```
driver.title
```
页面渲染后的源码
```
driver.page_source
```
获取窗口信息
```
driver.get_window_rect()
```
获取当前窗口的x,y坐标和当前窗口的高度和宽度，如：{'height': 1366, 'width': 768, 'x': 0, 'y': 200}

设置 User Agent(Firefox为例)

profile = webdriver.FirefoxProfile()
profile.set_preference("general.useragent.override", "some UA string")
driver = webdriver.Firefox(profile=profile)

执行js脚本

使用driver.execute_script([js脚本],*args)同步执行，如滑动到第一个class为cm-explain-bottom的元素位置。
```
driver.execute_script(
   "document.getElementsByClassName('cm-explain-bottom')[0].scrollIntoView(true)")
```
异步执行使用driver.execute_async_script([js脚本],*args)，*argsw为执行js代码要传入的参数。
查找元素

返回一个WebElement对象。
- 通过id属性：element = driver.find_element_by_id("coolestWidgetEvah")
- 通过class属性：cheeses = driver.find_elements_by_class_name("cheese")
- 通过标签名：frame = driver.find_element_by_tag_name("iframe")
- 通过css选择器：cheese = driver.find_element_by_css_selector("#food span.dairy.aged")
- 通过name属性：cheese = driver.find_element_by_name("cheese")
- 通过xpath：inputs = driver.find_elements_by_xpath("//input")
- 通过链接文本（完全匹配）：cheese = driver.find_element_by_link_text("cheese")
- 通过链接文本（部分匹配）：cheese = driver.find_element_by_partial_link_text("cheese")

元素(WebElement)的属性和方法

标签下文本：element.text
点击：element.click()
表单提交：element.submit()
输入：element.send_keys(123)
示例：

# 等待邮箱和密码可定位及登录按钮可提交，清空输入框，分别输入用户名密码点击提交按钮
email = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#email")))
passwd = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#pass")))
submit = self.wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#loginbutton')))
email.clear()
passwd.clear()
email.send_keys(user)
passwd.send_keys(password)
submit.click()

Cookie操作

driver.get("http://www.example.com")
# 给当前url域设置cookie
# name的值对应cookie key，value的值对应cookie value
driver.add_cookie({'name':'key', 'value':'value', 'path':'/'})
# 可选的属性
# 'domain' -> String,
# 'secure' -> Boolean,
# 'expiry' -> Milliseconds since the Epoch it should expire.

# 输出当前url所有的Cookie
for cookie in driver.get_cookies():
    print "%s -> %s" % (cookie['name'], cookie['value'])

# 通过name删除Cookie
driver.delete_cookie("CookieName")
# 删除所有的Cookie
driver.delete_all_cookies()

切换页面框架或窗口

driver.switch_to.window("windowName")

切换默认框架：driver.switch_to.default_content()

切换最新窗口：

windows = driver.window_handles
# 切换到最新打开的窗口中
switch_to.window(windows[-1])

获取最新的alert弹窗

alert = driver.switch_to.alert
# 关闭弹窗
alert.dismiss()

当前的url返回或者跟进
```
driver.forward()
driver.back()
```

截屏

# 返回页面的base64编码字符串
base64 = driver.get_screenshot_as_base64()
# 返回保存到文件的结果
result = driver.get_screenshot_as_file("D:\\example.png")
# png格式的二进制字符串
pngSrc =  driver.get_screenshot_as_png()

使用Selenium爬取七麦数据APP排行榜：点击前往

原文链接

最后编辑于：2019.07.18 19:22:09

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,002评论 6赞 509
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,777评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 166,341评论 0赞 357
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,085评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,110评论 6赞 395
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,868评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,528评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,422评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,938评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,067评论 3赞 340
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,199评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,877评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,540评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,079评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,192评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,514评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,190评论 2赞 357