利用python+baidu-aip高精度识别验证码

基本原理说明

  1. python-selenium获取到验证码图
  2. python-PIL处理验证码图片
  3. python-baidu-aip提交图片获取识别文字

python-selenium获取到验证码图

目标:获取验证码图片
模块:selenium
核心步骤如下:

  • browser = webdriver.Firefox();browser.get('url');#打开浏览器访问地址
  • all_page = browser.save_screenshot('All.png')#截图获取整个页面
  • location = browser.find_element_by_xpath("//*[@id='imgCodeId']").locate#定位验证码
  • rangle = (x_begin,y_begin,x_end,y_end)#验证码的四个坐标
  • code_image = all_page.crop(rangle)#根据坐标截图

python-PIL处理验证码图片

目标:提高图片识别的准确率
模块:PIL
核心步骤如下:

  • imgry = Image.open(r"result.jpg").convert('L')#灰度处理,去除颜色
  • sharpness =ImageEnhance.Contrast(imgry)#对比度增强
  • i3 = sharpness.enhance(3.0) #3.0为图像的饱和度

python-baidu-aip提交图片获取识别文字(接口说明

目标:传入验证码图片获取文字识别结果
模块:baidu-aip
核心步骤如下:

  • 对接口返回结果的二次验证和处理,本项目对返回的平均置信度、返回字符串类型进行二次判断,如未达到相关阈值,则刷新验证码,重新提交图片

项目整体代码示例

#coding=utf8
from selenium import webdriver
import time
from PIL import Image
from PIL import ImageEnhance
from aip import AipOcr
import os

all_num = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z',
'A','B','C','D','E','F','G','H','I','J','K','L','M','N','O','P','Q','R','S','T','U','V','W','X','Y','Z',
'1','2','3','4','5','6','7','8','9','0']

def baidu_image_to_word(image_path):
    """ 你的 APPID AK SK """
    APP_ID = '14364432'
    API_KEY = 'jgopMYaecGeGgaBr2EYWKNDZ'
    SECRET_KEY = 'TnpKrHyyc3IgrGw2L5ZzKRiY9F2seCSk'
    client = AipOcr(APP_ID, API_KEY, SECRET_KEY)

    with open(image_path, 'rb') as fp:
        image = fp.read()

    
    """ 调用通用文字识别, 图片参数为本地图片 """
    client.basicGeneral(image);

    """ 如果有可选参数 """
    options = {}
    options["language_type"] = "ENG"
    options["detect_direction"] = "true"#是否检测图像朝向,默认不检测,即:false
    ##options["detect_language"] = "true"#是否检测语言,默认不检测
    options["probability"] = "true"#是否返回识别结果中每一行的置信度

    """ 带参数调用通用文字识别, 图片参数为本地图片 """
    
    res = client.basicAccurate(image, options)#通用文字识别(高精度版),普通版是client.basicGeneral(image, options);
    ##""" 调用通用文字识别, 图片参数为远程url图片 """
    ##url = "https//www.x.com/sample.jpg"
    ##client.basicGeneralUrl(url,options);
    try:
        guess = res['words_result'][0]['words']
        probability = res['words_result'][0]['probability']['average']
    except:
        print("识别失败,将置信度归为0,文字为空")
        guess = '';probability=0;

    return guess,probability,res


def get_code(browser):
    image = browser.find_element_by_xpath("//*[@id='imgCodeId']")
    location = image.location# 获取验证码x,y轴坐标
    size = image.size # 获取验证码的长宽

    x_begin = int(location['x']);
    y_begin = int(location['y']);
    my_with = int(size['width'])
    my_height = int(size['height'])

    rangle = (x_begin,
              y_begin,
              x_begin+my_with,
              y_begin+my_height) # 写成我们需要截取的位置坐标
##    print(rangle)
    
    probability = 0;count = 0;count_max = 30;words_num = 0
    ##图片文字识别的置信度大于0.9的时候才说明识别得比较准确,否则刷新验证码重新识别
    while (probability<0.92 or words_num!=4) and count<count_max:
        if count>0:
            browser.find_element_by_xpath("//*[@id='imgCodeId']").click()
            time.sleep(2)
        print("识别认证码中...请稍等")
        count += 1
        browser.save_screenshot('All.png') # 截取当前网页,该网页有我们需要的验证码
        save_image = Image.open("All.png") # 打开截图
        result = save_image.crop(rangle)
        result.save('result.jpg')

        ##增强图形识别率的处理
        i2=Image.open(r"result.jpg")
        imgry = i2.convert('L')   #图像加强,二值化,PIL中有九种不同模式。分别为1,L,P,RGB,RGBA,CMYK,YCbCr,I,F。L为灰度图像
        sharpness =ImageEnhance.Contrast(imgry)#对比度增强
        i3 = sharpness.enhance(3.0)  #3.0为图像的饱和度
        i3.save("result.png")

        ##连接api获取返回结果
        guess,probability,res = baidu_image_to_word('result.png') #连接百度api
        words_num = len(guess)
        print('第%d次猜测验证码,猜测结果为%s,猜测验证码个数为%d,置信度平均值为%f'%(count,guess,words_num,probability))

        ##保证返回结果里面含有刚好4个数字+字母的组合
        check_num = 0;
        for single in guess:
            if single in all_num:
                check_num += 1
            
        if ' ' in guess:
            if len(guess.replace(' ',''))==4 and check_num==4:
                guess = guess.replace(' ','')
                words_num = len(guess)
            else:
                print("pass!猜测个数不对或者猜测值不是数据和字母")
                probability = 0

    os.rename('result.png','result-%s-%s.png'%(guess,str(probability)[2:]))##将验证码图片重命名成含识别结果以及平均置信度的名字
    time.sleep(2)

    return guess

if __name__=="__main__":
##    chrome_options=webdriver.ChromeOptions()
####    chrome_options.add_argument('--headless')##设置无界面
##    browser = webdriver.Chrome(chrome_options=chrome_options)

    fireFoxOptions = webdriver.FirefoxOptions()
    fireFoxOptions.set_headless()##设置无界面
    browser = webdriver.Firefox(firefox_options=fireFoxOptions)

    browser.get('http://icrm.baidu.com/crm-portal/index.action')
    browser.maximize_window()
    time.sleep(2)
    mycode = get_code(browser)
    
    browser.quit()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 211,884评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,347评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,435评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,509评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,611评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,837评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,987评论 3 408
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,730评论 0 267
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,194评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,525评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,664评论 1 340
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,334评论 4 330
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,944评论 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,764评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,997评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,389评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,554评论 2 349

推荐阅读更多精彩内容