- selenium是什么:一个自动化测试工具(大家都是这么说的)
- selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要
准备工作:
- 安装selenium(pip install selenium)
- 安装chromedriver(一个驱动程序,用以启动chrome浏览器,具体的驱动程序需要对应的驱动,在官网上可以找到下载地址)
基本步骤:
1、导入模块:
from selenium import webdriver # 启动浏览器需要用到
from selenium.webdriver.common.keys import Keys # 提供键盘按键支持(最后一个K要大写)
2、创建一个WebDriver实例:
driver = webdriver.Chrome("chromedriver驱动程序路径")
3、打开一个页面:
driver.get("http://www.python.org") # 这个时候chromedriver会打开一个Chrome浏览器窗口,显示的是网址所对应的页面
4、关闭页面
driver.close() # 关闭浏览器一个Tab
# or
driver.quit() # 关闭浏览器窗口
高级-查找元素:
在打开页面和关闭页面中间,就是各种操作!而查找元素这一点,和爬虫常见的HTML页面解析,定位到具体的某个元素基本一样,只不过,调用者是driver
element = driver.find_element_by_name("q")
高级-页面交互:
找到元素后,就是进行“交互”,如键盘输入(需提前导入模块)
element.send_keys(“some text”) # 往一个可以输入对象中输入“some text”
甚至
element.send_keys(Keys.RETURN) # 模拟键盘回车
一般来说,这种方式输入后会一直存在,而要清空某个文本框中的文字,就需要:
element.clear() # 清空element对象中的文字
高级-等待页面加载(wait)
应用场景:含有ajax加载的page!因为在这种情况下,页面内的某个节点并不是在一开始就出现了,而在这种情况下,就不能“查找元素”,元素选择不到,就不好进行交互操作!
等待页面加载这两个模块经常是一起导入的:
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
- 显示等待:触发某个条件后才能够执行后续的代码
driver = webdriver.Firefox()
driver.get("http://somedomain/url_that_delays_loading")
try:
element = WebDriverWait(driver, 10).until(
EC.presence_of_element_located((By.ID, "myDynamicElement")))
finally:
driver.quit()
其中,presence_of_element_located是条件,By.ID是通过什么方式来确认元素(这个是通过id),"myDynamicElement"这个就是某个元素的ID
- 隐示等待:设置某个具体的等待时间
from selenium import webdriver
driver = webdriver.Firefox()
driver.implicitly_wait(10) # seconds
driver.get("http://somedomain/url_that_delays_loading")
myDynamicElement = driver.find_element_by_id("myDynamicElement")
- 中文:https://selenium-python-zh.readthedocs.io/en/latest/getting-started.html
- 英文:https://selenium-python.readthedocs.io/installation.html
- 官方API文档:https://seleniumhq.github.io/selenium/docs/api/py/api.html