Selenium获取动态图片验证码

关于图片验证码的文章,我想大家都有一定的了解了。

在我们做UI自动化的时候,经常会遇到图片验证码的问题。

image

当开发不给咱们提供万能验证码,或者测试第三方网站比如知乎的时候,我们就需要自己去识别验证码

OCR

OCR是一种图像文字识别的技术,例如图中的验证码,我们用肉眼识别就是c5s3,但机器可不比咱们肉眼。所以我们要利用ocr技术,让我们的Python脚本自动通过图片识别出对应的文字

常见的识别类库

在Python中其实有许多识别类库,这里只介绍博主自己实践过的成功率还不错的: 百度ocr

简单的说,就是百度提供了一个SDK,让我们传入图片数据,从而拿到识别的结果。ocr的细节我们不需要关心。

申请开通OCR

首先我们得有一个百度账号,这个相信大家都有,没有的可以申请一个。

左上角展开->产品服务->文字识别
  • 创建应用
点击创建应用按钮
  • 填写相关应用信息
简单描述下应用是干嘛的就行,因为我们只需要识别文字,所以其他也不用勾上
image

创建好了之后可以看到具体的应用信息,记住这3个关键信息。待会会用到。

  • appid
  • apikey
  • secret key

熟悉OCR文档

官方文档地址: https://cloud.baidu.com/doc/OCR/s/wkibizyjk

文档会写的比较清楚,简单的说就是通过你的appid,api key和secret key获取一个client,接着你就可以调用client的api去获取图片中的文字了。官方的SDK还是比较贴心的。

  • 安装SDK
pip install baidu-aip

讲完了文字怎么识别,接着就来说说标题中的动态图片验证码

动态图片验证码

这个概念是我自己命名的,一般来说,我们的一张图片都是对应唯一一个url的,比如:

https://yuque.com?image=dshqadiau

(这个地址是我编的)

一般来说image字段的值不同,图片也就不同,都是一串随机的或者规律的不重复数据,确保图片不会重复

但是博主最近遇到了这样一种情况:

输入一个url,每次输入,拿到的图片都不一样。

这样就会带来一个很严重的问题,页面上你虽然读取了图片的信息。我们把图片的url传递给百度sdk的时候,url由于再次调用,导致图片发生了变化。

比如网站上显示的是: c5s3,调用百度sdk的时候,百度会通过url读取图片,但再次读取,图片可能变成了lfew

不信大家可以看看这个图片地址:

每次刷新,这个图片都会变,但是url不变

怎么解决呢?

好在百度sdk,他不仅仅支持url,还支持图片文件和base64的图片数据。我们看看官方文档:

所以此时我们用图片的base64数据就行了

再回到Selenium里面,我们怎么才能获取到验证码那张图片呢?

思考一下:

  1. 读取img标签的src,然后下载图片,保存图片文件再转为base64

很显然这个方法行不通,为什么呢?

因为img的src属性就是刚才这个url,你去获取一遍url,它同样会变化。

  1. 截图,裁剪出验证码部分,扔给百度去识别

可行是可行,但是会不会太复杂了??

如果我只对验证码的img元素进行截图,生成base64的数据是不是更方便?

其实呢,selenium作为一款老牌的自动化测试工具,很多方法供大于求了。所以它是有这样的功能的!

Selenium对指定区域截图

我们都知道,selenium有一些截图方法。

driver.get_screenshot_as_file(filename)

但其实,针对元素,也是有截图方法的。

伪代码如下:

# 通过id获取到图片
img = driver.find_element_by_id("image")
# 调用WebElement的screenshot_as_png属性方法,获取到png的数据,因为百度需要png
data = img.screenshot_as_png

接着我们就可以用这个获取到的图片数据去找百度要答案了!

完整版代码:

from aip import AipOcr 
from selenium import webdriver


client = AipOcr("你的appid", "你的app_key", "你的secret_key")
driver = webdriver.Chrome()
driver.get("https://iam.pt.ouchn.cn/am/UI/Login")
img = driver.find_element_by_id("kaptchaImage")
data = img.screenshot_as_png

res = client.basicGeneral(data, {})
print(res)
更多图片识别的配置可以查看度娘文档哦

可以看到,只识别到了CFX,而且图片没有继续变化了。

毕竟文字识别是从图片里面找文字,而且文字会有一些横线这样的干扰,所以如果一次不行,可以多试几次。

思路就是写一个while循环,不断尝试去识别验证码并登录,接着判断是否登录成功,没成功则重复上一个步骤

以我个人的经验,一般1-10次就可以成功。

好了,以上是博主简单替大家尝试一下UI自动化过程中对于验证码的识别。主要重点在于验证码的识别和对部分区域截图。

有兴趣的同学可以联系博主探讨哦。上一篇给点工们的进阶教程好像漏发了一些人,这里补发一下,希望大家都能够取得进步!~

点工怎么打怪升级为测开(记得收藏,看过的都赚到了)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343

推荐阅读更多精彩内容