总目录:https://www.jianshu.com/p/e406a9bc93a9
Python-爬虫 - 子目录:https://www.jianshu.com/p/23cf57674bf1
官方手册:https://selenium-python.readthedocs.io/installation.html
什么是selenium
一种浏览器自动化测试框架
用于web应用程序的自动化测试
特点
开源、免费
多平台(windows、linux、mac)、浏览器(firefox、chrome、ie、opera、safari)、多语言(java、phthon、ruby、php、c#、javascript)支持
对于web页面有良好的支持
API简单、灵活(用开发语言驱动)易于使用
支持分布式测试用例执行
之后我们来看一个普通例子:
这个例子用来在百度搜索Python,并返回页面。
from seleniumimport webdriver
from selenium.webdriver.common.byimport By
from selenium.webdriver.common.keysimport Keys
from selenium.webdriver.supportimport expected_conditionsas EC
from selenium.webdriver.support.waitimport WebDriverWait
browser = webdriver.Chrome()#定义使用谷歌浏览器
try:
browser.get('https://www.baidu.com') #访问百度
input = browser.find_element_by_id('kw') #定位百度网页输入框
input.send_keys('Python') #输入Python
input.send_keys(Keys.ENTER) #点击查询
wait = WebDriverWait(browser, 10) #等待10秒
wait.until(EC.presence_of_element_located((By.ID, 'content_left'))) #查找
print(browser.current_url) #当前测试地址
print(browser.get_cookies()) #当前测试cookies
print(browser.page_source) #当前测试页面源代码
finally:
browser.close() #关闭测试
我们可以看到,这个库的使用,大致分为三部分,第一部分是定义浏览器对象,第二部分发起请求,第三部分关闭浏览器对象。
定义浏览器对象
browser = webdriver.Chrome() #谷歌
browser = webdriver.Firefox() #火狐
browser = webdriver.Edge() #IE
browser = webdriver.PhantomJS() #PhantomJS
browser = webdriver.Safari() #safari
实例:
访问淘宝网
browser = webdriver.Chrome() #声明浏览器对象
browser.get('https://www.taobao.com') #访问淘宝首页
print(browser.page_source) #打印源码
browser.close() #关闭网页
查找元素
既然我们能获得源码,自然能够从源码中提取我们想要的信息
查找单个元素
from seleniumimport webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
# 在这里我们使用了三种方式获取输入框,根据ID,CSS Selector,和XPath获取,它们返回的结果是完全一致的。
print(input_first)
print(input_second)
print(input_third)
browser.close()
<selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")><selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")><selenium.webdriver.remote.webelement.WebElement (session="3be735d5a0dae6722e2e10ef54b25a64", element="0.8761863914068868-1")>
find_element()
Selenium还提供了通用的find_element()方法,它需要传入两个参数,一个是查找的方式By,另一个就是值,实际上它就是find_element_by_id()这种方法的通用函数版本,比如find_element_by_id(id)就等价于find_element(By.ID, id)。
from seleniumimport webdriver
from selenium.webdriver.common.byimport By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element(By.ID, 'q')
print(input_first)
browser.close()
<selenium.webdriver.remote.webelement.WebElement (session="c914e27eac6c1ee496cc4bb027f1f3fd", element="0.006866029616107161-1")>
查找多个元素
from seleniumimport webdriver
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements_by_css_selector('.service-bd li')
print(lis)
print(type(lis))
browser.close()
我们用find_element()再来试试
from seleniumimport webdriver
from selenium.webdriver.common.byimport By
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')
print(lis)
print(type(lis))
browser.close()
运行结果与上面一致。
元素交互
输入文字用send_keys()方法,清空文字用clear()方法,另外还有按钮点击,用click()方法。
from seleniumimport webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input = browser.find_element_by_id('q')#定位输入框
input.send_keys('iPhone')#输入iPhone
time.sleep(1)
input.clear()#清空文字
input.send_keys('iPad')#输入iPad
button = browser.find_element_by_class_name('btn-search')#定位标签
button.click()
browser.close()
运行后可以看见下面三个阶段的变换。
动作链
from seleniumimport webdriver
from selenium.webdriverimport ActionChains
browser = webdriver.Chrome()
url ='http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
source = browser.find_element_by_css_selector('#draggable')
target = browser.find_element_by_css_selector('#droppable')
actions = ActionChains(browser)
actions.drag_and_drop(source, target)
actions.perform()
browser.close()
首先我们打开网页中的一个拖拽实例,然后依次选中要被拖拽的元素和拖拽到的目标元素,然后声明了ActionChains对象赋值为actions变量,然后通过调用actions变量的drag_and_drop()方法,然后再调用perform()方法执行动作,就完成了拖拽操作。
执行JavaScript
from seleniumimport webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)')
browser.execute_script('alert("To Bottom")')
browser.close()
在这里我们就利用了execute_script()方法将进度条下拉到最底部,然后弹出alert提示框。
获取元素信息
获取属性
from seleniumimport webdriver
from selenium.webdriverimport ActionChains
browser = webdriver.Chrome()
url ='https://www.taobao.com/'
browser.get(url)
logo = browser.find_element_by_id('q')
print(logo)
print(logo.get_attribute('aria-label'))
browser.close()
<selenium.webdriver.remote.webelement.WebElement (session="7f8d43c51f5ee0d350c1f83d6fa67309", element="0.7676622454832502-1")>
请输入搜索文字
获取文本值
from seleniumimport webdriver
browser = webdriver.Chrome()
url ='https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('ExploreSpecialCard-title')
print(input.text)
browser.close()
学生「自救」指南
获取ID、位置、标签名、大小
from seleniumimport webdriver
browser = webdriver.Chrome()
url ='https://www.zhihu.com/explore'
browser.get(url)
input = browser.find_element_by_class_name('ExploreSpecialCard-title')
print(input.id)
print(input.location)
print(input.tag_name)
print(input.size)
browser.close()
0.6825757990841457-1
{'x': 542, 'y': 374}
a
{'height': 28, 'width': 330}
高阶用法
切换Frame
参考:https://www.jianshu.com/p/9f7b0980c669
隐式等待
from seleniumimport webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
input = browser.find_element_by_class_name('ExploreSpecialCard-title')
print(input)
browser.close()
<selenium.webdriver.remote.webelement.WebElement (session="a0bd13999356b856226d80b20778d23e", element="0.23653782300671677-1")>
显示等待
from seleniumimport webdriver
from selenium.webdriver.common.byimport By
from selenium.webdriver.supportimport expected_conditionsas EC
from selenium.webdriver.support.waitimport WebDriverWait
browser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
wait = WebDriverWait(browser, 10)
input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(input, button)
browser.close()
<selenium.webdriver.remote.webelement.WebElement (session="2546d5873333781f46e584f3b94ac30d", element="0.4392430555610003-1")> <selenium.webdriver.remote.webelement.WebElement (session="2546d5873333781f46e584f3b94ac30d", element="0.4392430555610003-2")>
前进后退
from seleniumimport webdriver
import time
browser = webdriver.Chrome()
browser.get('https://www.baidu.com/')
browser.get('https://www.taobao.com/')
browser.get('https://www.python.org/')
browser.back()
time.sleep(1)
browser.forward()
browser.close()
异常处理
from seleniumimport webdriver
from selenium.common.exceptionsimport TimeoutException, NoSuchElementException
browser = webdriver.Chrome()
try:
browser.get('https://www.baidu.com')
except TimeoutException:
print('Time Out')
try:
browser.find_element_by_id('hello')
except NoSuchElementException:
print('No Element')
finally:
browser.close()
No Element