2.9.1.3Python-请求库_selenium

总目录:https://www.jianshu.com/p/e406a9bc93a9

Python-爬虫 - 子目录:https://www.jianshu.com/p/23cf57674bf1

官方手册:https://selenium-python.readthedocs.io/installation.html

什么是selenium

一种浏览器自动化测试框架

用于web应用程序的自动化测试

特点

开源、免费

多平台(windows、linux、mac)、浏览器(firefox、chrome、ie、opera、safari)、多语言(java、phthon、ruby、php、c#、javascript)支持

对于web页面有良好的支持

API简单、灵活(用开发语言驱动)易于使用

支持分布式测试用例执行



之后我们来看一个普通例子:

这个例子用来在百度搜索Python,并返回页面。

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

from selenium.webdriver.common.keysimport Keys

from selenium.webdriver.supportimport expected_conditionsas EC

from selenium.webdriver.support.waitimport WebDriverWait

browser = webdriver.Chrome()#定义使用谷歌浏览器

try:

    browser.get('https://www.baidu.com')            #访问百度

    input = browser.find_element_by_id('kw')      #定位百度网页输入框

    input.send_keys('Python')                              #输入Python

    input.send_keys(Keys.ENTER)                      #点击查询

    wait = WebDriverWait(browser, 10)                  #等待10秒

    wait.until(EC.presence_of_element_located((By.ID, 'content_left')))    #查找

    print(browser.current_url)                    #当前测试地址

    print(browser.get_cookies())                #当前测试cookies

    print(browser.page_source)                #当前测试页面源代码

finally:

    browser.close()                                    #关闭测试


运行结果

我们可以看到,这个库的使用,大致分为三部分,第一部分是定义浏览器对象,第二部分发起请求,第三部分关闭浏览器对象。


定义浏览器对象

browser = webdriver.Chrome()        #谷歌

browser = webdriver.Firefox()          #火狐

browser = webdriver.Edge()            #IE

browser = webdriver.PhantomJS()    #PhantomJS

browser = webdriver.Safari()            #safari       


实例:

访问淘宝网

browser = webdriver.Chrome()                #声明浏览器对象

browser.get('https://www.taobao.com')    #访问淘宝首页

print(browser.page_source)                     #打印源码

browser.close()                                         #关闭网页


运行结果


查找元素

既然我们能获得源码,自然能够从源码中提取我们想要的信息


查找单个元素

from seleniumimport webdriver


browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element_by_id('q')

input_second = browser.find_element_by_css_selector('#q')

input_third = browser.find_element_by_xpath('//*[@id="q"]')

# 在这里我们使用了三种方式获取输入框,根据ID,CSS Selector,和XPath获取,它们返回的结果是完全一致的。

print(input_first)

print(input_second)

print(input_third)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")><selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")><selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")>


find_element()

Selenium还提供了通用的find_element()方法,它需要传入两个参数,一个是查找的方式By,另一个就是值,实际上它就是find_element_by_id()这种方法的通用函数版本,比如find_element_by_id(id)就等价于find_element(By.ID, id)。

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input_first = browser.find_element(By.ID, 'q')

print(input_first)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="c914e27eac6c1ee496cc4bb027f1f3fd", element="0.006866029616107161-1")>



查找多个元素

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements_by_css_selector('.service-bd li')

print(lis)

print(type(lis))

browser.close()


运行结果

我们用find_element()再来试试

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

print(lis)

print(type(lis))

browser.close()


运行结果

运行结果与上面一致。


元素交互

输入文字用send_keys()方法,清空文字用clear()方法,另外还有按钮点击,用click()方法。

from seleniumimport webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.taobao.com')

input = browser.find_element_by_id('q')#定位输入框

input.send_keys('iPhone')#输入iPhone

time.sleep(1)

input.clear()#清空文字

input.send_keys('iPad')#输入iPad

button = browser.find_element_by_class_name('btn-search')#定位标签

button.click()

browser.close()

运行后可以看见下面三个阶段的变换。


1


2
3


动作链

from seleniumimport webdriver

from selenium.webdriverimport ActionChains

browser = webdriver.Chrome()

url ='http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'

browser.get(url)

browser.switch_to.frame('iframeResult')

source = browser.find_element_by_css_selector('#draggable')

target = browser.find_element_by_css_selector('#droppable')

actions = ActionChains(browser)

actions.drag_and_drop(source, target)

actions.perform()

browser.close()

首先我们打开网页中的一个拖拽实例,然后依次选中要被拖拽的元素和拖拽到的目标元素,然后声明了ActionChains对象赋值为actions变量,然后通过调用actions变量的drag_and_drop()方法,然后再调用perform()方法执行动作,就完成了拖拽操作。

运行结果


执行JavaScript

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.get('https://www.zhihu.com/explore')

browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')

browser.execute_script('alert("To Bottom")')

browser.close()

在这里我们就利用了execute_script()方法将进度条下拉到最底部,然后弹出alert提示框。

运行结果




获取元素信息


获取属性

from seleniumimport webdriver

from selenium.webdriverimport ActionChains

browser = webdriver.Chrome()

url ='https://www.taobao.com/'

browser.get(url)

logo = browser.find_element_by_id('q')

print(logo)

print(logo.get_attribute('aria-label'))

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="7f8d43c51f5ee0d350c1f83d6fa67309", element="0.7676622454832502-1")> 

请输入搜索文字


获取文本值

from seleniumimport webdriver

browser = webdriver.Chrome()

url ='https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('ExploreSpecialCard-title')

print(input.text)

browser.close()

学生「自救」指南


获取ID、位置、标签名、大小

from seleniumimport webdriver

browser = webdriver.Chrome()

url ='https://www.zhihu.com/explore'

browser.get(url)

input = browser.find_element_by_class_name('ExploreSpecialCard-title')

print(input.id)

print(input.location)

print(input.tag_name)

print(input.size)

browser.close()

0.6825757990841457-1 

{'x': 542, 'y': 374} 


{'height': 28, 'width': 330}   



高阶用法

切换Frame

参考:https://www.jianshu.com/p/9f7b0980c669

隐式等待

from seleniumimport webdriver

browser = webdriver.Chrome()

browser.implicitly_wait(10)

browser.get('https://www.zhihu.com/explore')

input = browser.find_element_by_class_name('ExploreSpecialCard-title')

print(input)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="a0bd13999356b856226d80b20778d23e", element="0.23653782300671677-1")>



显示等待

from seleniumimport webdriver

from selenium.webdriver.common.byimport By

from selenium.webdriver.supportimport expected_conditionsas EC

from selenium.webdriver.support.waitimport WebDriverWait

browser = webdriver.Chrome()

browser.get('https://www.taobao.com/')

wait = WebDriverWait(browser, 10)

input = wait.until(EC.presence_of_element_located((By.ID, 'q')))

button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))

print(input, button)

browser.close()

<selenium.webdriver.remote.webelement.WebElement (session="2546d5873333781f46e584f3b94ac30d", element="0.4392430555610003-1")> <selenium.webdriver.remote.webelement.WebElement (session="2546d5873333781f46e584f3b94ac30d", element="0.4392430555610003-2")>


前进后退

from seleniumimport webdriver

import time

browser = webdriver.Chrome()

browser.get('https://www.baidu.com/')

browser.get('https://www.taobao.com/')

browser.get('https://www.python.org/')

browser.back()

time.sleep(1)

browser.forward()

browser.close()


异常处理

from seleniumimport webdriver

from selenium.common.exceptionsimport TimeoutException, NoSuchElementException

browser = webdriver.Chrome()

try:

    browser.get('https://www.baidu.com')

except TimeoutException:

    print('Time Out')

try:

    browser.find_element_by_id('hello')

except NoSuchElementException:

    print('No Element')

finally:

    browser.close()

No Element

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350

推荐阅读更多精彩内容

  • selenium用法详解 selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScr...
    陳_CHEN_陈阅读 3,882评论 1 5
  • 基本使用 from selenium import webdriverfrom selenium.webdrive...
    TianNanLeo阅读 307评论 0 1
  • selenium主要是用来做自动化测试,支持多种浏览器,爬虫中主要用来解决JavaScript渲染问题。 模拟浏览...
    拾柒丶_8257阅读 2,194评论 0 2
  • # Selenium # # 自动化测试工具,致辞多种浏览器 # 爬虫中主要用来解决JavaScript渲染的问题...
    拾柒丶_8257阅读 387评论 0 0
  • Selenium 视频地址: 链接:https://pan.baidu.com/s/1RJETygOxiT1t2c...
    小草_f57c阅读 454评论 0 0