【python+selenium】点触文字验证码的识别

效果示例

预·思路

要做的并不多,封装类,方法各司其职!验证的关键部位(文字坐标)交给第三方平台;

国家企业信用信息公示系统网站为例,点击查询就会产生验证界面!

  • selenium控制浏览器进入页面,查询调出验证页面
  • 查看网页获取图片链接,将图片转成字节流的形式传给第三方平台
  • 第三方返回图片中各个文字的坐标值,点击图片中的文字
  • 等待验证成功!

有一些编写程序时候的问题,在最后说明;


正·代码

  • 进入页面,输入查询公司或企业,点击查询,弹出验证页面
# 注册超级鹰,进入页面生成软件id
CHAOJIYING_USERNAME = ''
CHAOJIYING_PASSWORD = ''
CHAOJIYING_SOFT_ID = 
CHAOJIYING_KIND_FOUR = 9004  # 1~4 9004    #1~5 9201
CHAOJIYING_KIND_FIVE = 9008  # 5~8 9008
DATA_TEXT = '小米科技'
class CrackTouClick():
    def __init__(self):
        self.url = 'http://www.gsxt.gov.cn/index.html'
        self.browser = webdriver.Chrome()
        self.wait = WebDriverWait(self.browser, 20)
        self.chaojiying = Chaojiying(CHAOJIYING_USERNAME, CHAOJIYING_PASSWORD, CHAOJIYING_SOFT_ID)
    
    def __del__(self):
        self.browser.close()
    
    def open(self):
        """
        打开网页输入用户名密码
        :return: None
        """
        self.browser.get(self.url)

    def text_input(self):
        '''
        输入查询标签
        :return: 
        '''
        input = self.wait.until(EC.presence_of_element_located((By.ID, 'keyword')))
        return input
  • 这个时候利用第三方平台,传入图片字节流(或者base64加密转码)!

    图片

    传入方式

    注意:
    在第三方源码中第二种方式需要更改为file_base(已标注)
    更改方式

  • 第三方返回信息(其中就有文字坐标)(pic_str)

{'err_no': 0, 'err_str': 'OK', 'pic_id': '3068920282435800059', 'pic_str': '203,298|67,264|242,60|238,260', 'md5': '6330865e91232108ae828df101edff12'}

  • 这样,我们获取了文字坐标值,就可以进行解析点击文字了!
    def get_touclick_button(self):
        """
        获取初始验证按钮
        :return:
        """
        time.sleep(3)
        button = self.wait.until(EC.element_to_be_clickable((By.ID, 'btn_query')))
        return button
    
    def get_touclick_element(self):
        """
        获取验证图片对象
        :return: 图片对象,图片链接
        """
        element = self.wait.until(EC.presence_of_element_located((By.CLASS_NAME, 'geetest_item_img')))
        url_http = element.get_attribute('src')
        #print(url_http)
        return element,url_http

    def get_points(self, captcha_result):
        """
        解析识别结果
        :param captcha_result: 识别结果
        :return: 转化后的结果
        """
        groups = captcha_result.get('pic_str').split('|')
        locations = [[int(number) for number in group.split(',')] for group in groups]
        return locations
    
    def touch_click_words(self, locations):
        """
        点击验证图片
        :param locations: 点击位置
        :return: None
        """
        for location in locations:
            print(location)
            element,url_http = self.get_touclick_element()
            ActionChains(self.browser).move_to_element_with_offset(element, location[0],
                                                                   location[1]).click().perform()
            time.sleep(0.5)
    
    def touch_click_verify(self):
        """
        点击验证按钮
        :return: None
        """
        button = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_commit_tip')))
        button.click()

    def request_download(self,IMAGE_URL):
        '''
        获取图片链接转换字节流,传入超级鹰
        :return:
        '''
        r = requests.get(IMAGE_URL)
        res = requests.get(IMAGE_URL,stream=True)  # 获取字节流最好加stream这个参数,原因见requests官方文档

        byte_stream = BytesIO(res.content)  # 把请求到的数据转换为Bytes字节流

        roiImg = Image.open(byte_stream)  # Image打开Byte字节流数据
        # roiImg.show()   #  弹出 显示图片
        imgByteArr = BytesIO()  # 创建一个空的Bytes对象

        roiImg.save(imgByteArr, format='PNG')  # PNG就是图片格式,我试过换成JPG/jpg都不行

        imgByteArr = imgByteArr.getvalue()  # 这个就是保存的图片字节流
        with open('img.png', 'wb') as f:
            f.write(r.content)

        return imgByteArr
  • 到这里,我已经完成了程序需要的一切,配合selenium工具是大大减少了开发者的编写难度,需要关注的主要是图片转码、解析返回信息等图片处理问题!

说明·问题

  • 本次验证码识别借鉴崔庆才《python3爬虫开发实战》提供的代码思路,有一个比较大的问题就是他用网页截图的方式来获取图片,毕竟是两年前的代码,当时的验证码肯定和现在的有所不同,所以说不能直接截取(不能获取文字顺序,影响识别率),经过优化,获取网页隐藏图片链接地址,通过io库里的方法,对图片进行转换字节流传入第三方py文件!

第三方(超级鹰)

  • 在网站注册账号,进入页面生成软件id;


    软件id
  • 还有需要在那下载一个py文件(在开发文档里),放入你程序同位置就好(方便调用)


    python文件
  • 还有一个问题就是,在第三方网站中没有提供1~5个文字的坐标代码,联系客服得知有这个代码9201,但是识别率不太好,所以没有放出来,同时5~8文字的坐标代码还是有的,并且可以识别5个字符以下的文字!

完整代码

G码云


送给你们:

Valar morghulis (凡人皆有一死) Valar dohaeris (凡人皆需侍奉)

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,588评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,456评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,146评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,387评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,481评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,510评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,522评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,296评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,745评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,039评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,202评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,901评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,538评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,165评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,415评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,081评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,085评论 2 352

推荐阅读更多精彩内容