python爬虫之自动化测试selenium 模仿用户操作

小示例效果,程序操控哦

selenium.gif

先科普一下selenium,这是一个用于Web应用程序测试的工具,支持多种浏览器多种语言

框架底层使用JavaScript模拟真实用户对浏览器进行操作,Selenium测试直接运行在浏览器中,代码执行时,可以自动打开浏览器/表单输入/按钮点击,就像真实用户在操作的一样

真真是反爬虫的一大神器啊

先附上文档了解一些基础知识:

          官方文档:[https://selenium-python.readthedocs.io/index.html](https://selenium-python.readthedocs.io/index.html)

          中文文档:[https://selenium-python-zh.readthedocs.io/en/latest/installation.html](https://selenium-python-zh.readthedocs.io/en/latest/installation.html)

关于安装

cmd命令:pip3 install selenium

下载谷歌驱动安装:<u><u>https://sites.google.com/a/chromium.org/chromedriver/downloads</u></u>

放在谷歌文件夹C:\Program Files (x86)\Google\Chrome\Application下再把这路径加入环境变量

基础知识

Xpath是非常强大的元素查找方式,它可以定位到页面上的任意元素

我这里只介绍了一些今天这个实例会用到的

首先先了解一下它的一些语法

  • // : 相对路径,以这个开头表示从寻找文档的根节点开始查找元素,若出现在xpath路径中则表示寻找父节点下任意符合条件的子节点,不管嵌套了多少层级
  • /:绝对路径,表示寻找父节点下的第一层子元素也就是直接子元素
  • "//标签名[@属性名='属性值']":表示从根目录查找和标签名、属性值相匹配的元素

几乎所有的Xpath路径都是以上面3种方法来组合的

精准定位

以下面这个百度文库这段html举例

image.png

要获取输入框怎么写,写法不只一种哈,这地方你也可以直接使用input的id获取元素(一个页面正常来讲不会有相同的id)

input = browser.find_element(By.XPATH, "//form[@name='ftop']//input[@id='kw']")

上面这行是用的是find_element是查找单个元素,api在下面可以先看下

表示从根目录查找<u>第一个</u>匹配路径 name为flop的form标签 ,找到这个元素之后再去他所有子元素里面查找id为kw的input框

假设这个页面有两个name为ftop的form标签(name一样的form标签讲道理一个页面是不会有两个现在只是假设,有可能你会遇到class名一样的div标签)

那么获取第二个form标签:"//form[@name='ftop'][2]//input[@id='kw']", 就在大括号后面加上他的索引,索引是从1开始的

模糊定位

contains关键字input = browser.find_element(By.XPATH, "//input[contains(@id, 'kw')]")

表示寻找页面中id属性值包含kw所有input元素

text关键字input = browser.find_element(By.XPATH, "//button[contains(text(), '搜索')]")

表示寻找页面中文字中包含有搜索的所有button元素

starts-with关键字input = browser.find_element(By.XPATH, "//a[starts-with(@href,'http://')]")

表示寻找页面中href属性以http://开头的a标签

ends-with关键字input = browser.find_element(By.XPATH, "//a[ends-with(@href,'com')]")

表示寻找页面中href属性以'com'结尾的a标签

<u>关于ends-widh我在使用的时候会报错提示语法不正确而且网上关于ends-with介绍也很少所以我没有找到原因如果大家知道欢迎留言告诉我不胜感激 (´▽`ʃ♡ƪ)</u>

这是一个简单的关于用selenium和xpath来做模糊查询的小实例

chrome_options = Options()

chrome_options.add_argument("--headless")

browser = webdriver.Chrome(chrome_options=chrome_options)

# 打开百度网址

browser.get("https://www.baidu.com/")

# 获取第一个http链接

element_contains = browser.find_element(By.XPATH, "//a[contains(@href, 'http://')]")

print(element_contains.text)

# 获取第一个包含文字中包含'地图'的a标签

element_text = browser.find_element(By.XPATH, "//a[contains(text(), '地图')]")

print(element_text.text)

# 获取第一个文字以'贴'开头的a标签

element_starts = browser.find_element(By.XPATH, "//a[starts-with(text(), '贴')]")

print(element_starts.text)

browser.close()
image.gif

selenium的一些常用api

find_element和find_elements的使用

browser.find_element(By.XPATH, '//button[text()="Some text"]')  //单个元素获取

browser.find_elements(By.XPATH, '//button') //多个元素获取
image.gif
  • ID = "id"
  • XPATH = "xpath"
  • LINK_TEXT = "link text"
  • PARTIAL_LINK_TEXT = "partial link text"
  • NAME = "name"
  • TAG_NAME = "tag name"
  • CLASS_NAME = "class name"
  • CSS_SELECTOR = "css selector"

单个元素选取(多个元素选取:就是在element后面加一个s,比如find_elements_by_id):

  • find_element_by_id
  • find_element_by_name
  • find_element_by_xpath
  • find_element_by_link_text
  • find_element_by_partial_link_text
  • find_element_by_tag_name
  • find_element_by_class_name
  • find_element_by_css_selector

获取到标签之后的界面交互:

  • input.send_keys("输入中")
  • input.clear() 清空输入框
  • button.click() 按钮点击

常用的控制浏览器的api:

  • browser.back() 浏览器后退
  • browser.forward() 浏览器前进
  • browser.get("https://www.zhihu.com/explore") 打开页面
  • browser.execute_script("alert('To Button')") 执行js代码
  • print(browser.window_handles) 所有的标签
  • browser.switch_to_window(browser.window_handles[1]) 切换到指定标签页
  • browser.close() 关闭当前标签页

代码实例

关于页面模块引入

# 引入浏览器驱动

from selenium import webdriver  

# 这里我们需要引入浏览器内核才可以使用浏览器的无头模式,这里我引入的是chrome

# Gecko:是Firefox浏览器的内核

# Trident:是IE浏览器的内核

# Blink:是webkit的一个分支版本,由google开发

# 关于什么是无头模式:即headless browser,是一种没有界面的浏览器,主要是用作爬虫,用以捕捉Web上的各类数据

from selenium.webdriver.chrome.options import Options  

# 主要用于使用两个私有方法find_element和find_elements

from selenium.webdriver.common.by import By

# 调用键盘api

from selenium.webdriver.common.keys import Keys

# 用于时间延迟

import time
image.gif

为了更好模仿真人操作,所以每个操作后面我都加时间延迟函数

功能代码

chrome_options = Options()

chrome_options.add_argument("--headless")

browser = webdriver.Chrome()

# 打开页面

browser.get("https://wenku.baidu.com/") 

# 获取搜索输入框

input = browser.find_element(ID, 'kw') 

# 输入内容

input.send_keys("IT/计算机")

# 模拟回车

input.send_keys(Keys.ENTER) 

# 获取'我知道了'按钮

btn = browser.find_element(By.XPATH, "//div[@class='new-filter-box fc5']//span[@class='btn-know']")

btn.click()

time.sleep(1) # 时间延迟

# 点击列表的第一条数据

btn = browser.find_element(By.XPATH, "//div[@class='main']//dl[1]//a[1]")

btn.click()

time.sleep(4)

# 将browser页面切换至当前页面

browser.switch_to_window(browser.window_handles[1])

# 关闭当前页面

browser.close()

# 切换至第一个页面

browser.switch_to_window(browser.window_handles[0])

time.sleep(1)

# 点击列表的第二条数据

btn = browser.find_element(By.XPATH, "//div[@class='main']//dl[2]//a[1]")

btn.click()

time.sleep(4)

# 视图切换至第一个页面

browser.switch_to_window(browser.window_handles[0])

time.sleep(2)

# 去往百度页面

browser.get("https://baidu.com/")

# 打印所有标签

print(browser.window_handles)
image.gif

开启无头模式

只需要修改一行代码

browser = webdriver.Chrome(chrome_options=chrome_options)
image.gif

欢迎留言交流 (´▽`ʃ♡ƪ)**

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,444评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,421评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,036评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,363评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,460评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,502评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,511评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,280评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,736评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,014评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,190评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,848评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,531评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,159评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,411评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,067评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,078评论 2 352

推荐阅读更多精彩内容