一. 实现场景
1. 要想对一个网站内容进行浏览或操作,一般都需要进行登录操作,只有登录成功后才能进行后续流程,所以本节主要实现登录功能的自动化,如下图
二. 操作实践
根据上图整个流程我分为以下几步:
1. 启用浏览器并打开测试网站
代码:
释义如下:
from selenium import webdriver #将webdriver驱动导入selenium框架中from pip._vendor.requests.cookies import get_cookie_header#导入cookie(获取cookie时使用)import time#导入时间包(后续time函数使用)chromedriver="C:\Program Files\Google\Chrome\Application\chromedriver.exe"#将chrome驱动地址赋值给chromdriverbrowser=webdriver.Chrome(chromedriver)#调用chromedriver打开chrome浏览器browser.get("https://login.xxxx.com/en?dest_url=https://xxxx.com/en/contact")#打开测试网站(此网站地址需要填写自己测试的网站地址)
2. 对账号、密码元素定位并输入内容
首先通过F12打开代码界面,点击元素定位图标,选中要定位的“账号”文本框内容,在代码区域找到定位的元素代码信息,如下图中的name名称“login”,密码元素同理
代码:
browser.find_element_by_name("Login").send_keys("xxxx")#通过name定位登录文本框,通过send_keys输入账户信息browser.find_element_by_name("Password").send_keys("xxxx")#通过name定位密码文本框,通过send_keys输入密码信息
3. 验证码处理-使用OCR自动识别
看网上介绍验证码处理大致有4种方法,1.让开发把验证码代码注释掉 2.让开发设置万能验证码 3.通过添加cookie方式绕过图片验证码 4.OCR自动识别,其中1-2因为这个网站与开发接触不到,不予考虑方法3一般适用于记住登录状态的网站才适合,这里我使用第4种方法,这种方法适合于处理比较简单的验证码
OCR自动识别的原理是什么呢?
在这里我们需要使用pytesseract,它是一款用于光学字符识别(OCR)的python工具,即从图片中识别出其中嵌入的文字。整个过程分为截取登录页面->获取验证码的位置坐标->打开截图->从截图中截取验证码的区域->使用pytesseract工具识别验证码
代码:
browser.save_screenshot('f://a.png')#截取当前网页,该网页有我们需要的验证码yzm=browser.find_element_by_id("captcha_img_id") #定位验证码location=yzm.location#获取验证码x,y轴坐标size=yzm.size#获取验证码的长宽rangle=(int(location['x']),int(location['y']),int(location['x']+size['width']),int(location['y']+size['height']))#截取的位置坐标i=Image.open("f://a.png") #打开截图frame4=i.crop(rangle) #使用Image的crop函数,从截图中再次截取我们需要的区域frame4.save('f://frame4.jpg')#将截取到的验证码保存为jpg图片qq=Image.open('f://frame4.jpg')#打开jpg验证码图片text=pytesseract.image_to_string(qq).strip() #使用image_to_string识别验证码browser.find_element_by_name("turing").send_keys(text)#将识别的图片验证码信息输入到验证码输入文本框中browser.find_element_by_class_name("btn").click()#点击登录按钮
运行代码后可能会遇到提示“系统找不到指定文件”
这个问题困扰了我好久,最后处理方案如下:
首先保证pytesseract环境安装正确-参见pytesseract环境安装文章:
https://www.cnblogs.com/hupeng1234/p/7136442.html
其次,打开文件 pytesseract.py,找到如下代码,将tesseract_cmd的值修改为全路径如:
tesseract_cmd = 'C:\\Program Files\\Tesseract-OCR\\tesseract'
#这里一定要用\\不能用\,在程序里\\表示转译,如果只使用\是没用的。
运行代码,图1中的整个自动登录功能就实现了,怎么样有没有一种要飞的感觉…
三. 完整代码
# coding=gbk'''Created on 2018年2月23日@author: wx'''#!/usr/bin/python# -*-encoding:utf-8 -*-#1.启用浏览器并打开测试网站from PIL import Imageimport pytesseractfrom selenium import webdriver #将webdriver驱动导入selenium框架中from pip._vendor.requests.cookies import get_cookie_header#导入cookieimport time#导入时间包from pydoc import browsefrom pip import locationsfrom test.test_largefile import sizechromedriver="C:\Program Files\Google\Chrome\Application\chromedriver.exe"#将chrome驱动地址赋值给chromdriverbrowser=webdriver.Chrome(chromedriver)#调用chromedriver打开chrome浏览器browser.get("https://login.acesse.com/en?dest_url=https://acesse.com/en/contact")#打开测试网站#2.对账号、密码元素进行定位browser.find_element_by_name("Login").send_keys("542769")browser.find_element_by_name("Password").send_keys("921221tt")#3.验证码处理-使用OCR自动识别#browser.maximize_window()browser.save_screenshot('f://a.png')#截取当前网页,该网页有我们需要的验证码yzm=browser.find_element_by_id("captcha_img_id") #定位验证码location=yzm.location#获取验证码x,y轴坐标size=yzm.size#获取验证码的长宽rangle=(int(location['x']),int(location['y']),int(location['x']+size['width']),int(location['y']+size['height']))#截取的位置坐标i=Image.open("f://a.png") #打开截图frame4=i.crop(rangle) #使用Image的crop函数,从截图中再次截取我们需要的区域frame4.save('f://frame4.jpg')#讲截取到的验证码保存为jpg图片qq=Image.open('f://frame4.jpg')#打开jpg验证码图片text=pytesseract.image_to_string(qq).strip()#使用image_to_string识别验证码browser.find_element_by_name("turing").send_keys(text)#将识别的图片验证码信息输入到验证码输入文本框中browser.find_element_by_class_name("btn").click()#点击登录按钮
四. 使用到的技术
最后总结下我们这里使用到的技术:
1. 元素定位:find_element_by_name、find_element_by_id等方法
2. 键盘、鼠标操作:send_keys(输入内容)、click()点击
3. OCR自动识别-识别验证码图片,识别过程:截取登录页面->获取验证码的位置坐标->打开截图->从截图中截取验证码的区域->使用pytesseract工具识别验证码
代码运行过程中,可以发现登录过程中有的时候图片还没完全加载出来就进行图片识别,导致识别失败,有关这个问题参考下一篇文章《Selenium 实践(二)-设置等待时间》