爬虫 之 验证码(一)

验证码的是反爬虫策略之一,要如何解决验证码问题?

简单的验证码可以通过二值化的办法

我们以 http://my.cnki.net/elibregister/commonRegister.aspx 为例

1-1

首先需要配置环境,pip install pillow,pip install pytesseract

安装Tesseract-OCR    地址:https://digi.bib.uni-mannheim.de/tesseract/ 在这里找到对应版本安装,将安装好的Tesseract-OCR配置到环境变量中去,路径也许会是 C:\Program Files (x86)\Tesseract-OCR\tessdata

1-2

准备好了之后就可以开始解析验证码了

首先用selenium打开网页,并进行一个快照保存当前页面的png

browser = webdriver.Chrome()

url ='http://my.cnki.net/elibregister/commonRegister.aspx'

browser.get(url)

browser.save_screenshot('./images/zhiwang.png')

找到图片验证码,并获取他的四个点的坐标,将验证码截取保存

img = browser.find_element_by_id('checkcode')

left  = img.location['x']#验证码图片左上角横坐标

top    = img.location['y']#验证码图片左上角纵坐标

right  = left + img.size['width']#验证码图片右下角横坐标

bottom = top + img.size['height']#验证码图片右下角纵坐标

im=Image.open('./images/zhiwang.png')

im_crop=im.crop((left,top,right,bottom))#这个im_crop就是从整个页面截图中再截出来的验证码的图片

im_crop.save('./images/zrecaptchar.png')

打开验证码的图片并进行灰度处理

img =Image.open('./images/zrecaptchar.png')

img.show()

#可以看出,验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查像素是否为黑色将文本分离出来,该处理过程又被称为阈值化。通过 Pillow 可以很容易地实现该处理过程。

gray = img.convert('L')#灰度化,图片转化成灰度图

gray.show()

最后将图片处理成黑白色,即二值化

#二值化,指定而二值化的阈值,默认阈值127

threshold =135

table = []

for i in range(256):

    if i < threshold:

        table.append(0)

    else:

        table.append(1)

bw = gray.point(table,'1')

bw.show()

最后图片识别

strcode = pytesseract.image_to_string(bw)

将处理好的验证码填入验证码输入框中即可,不过这种方式的处理出错率较高,验证的时候一定要记得多试几次

最后附上完整代码

from selenium import webdriver

import pytesseract

from PIL import Image

#Chrome浏览器

browser = webdriver.Chrome()

url ='http://my.cnki.net/elibregister/commonRegister.aspx'

browser.get(url)

checkCode = browser.find_element_by_id('txtOldCheckCode')#验证码输入框

btnReg = browser.find_element_by_id('ButtonRegister')#登陆按键

#快照

browser.save_screenshot('./images/zhiwang.png')

#验证码图片

img = browser.find_element_by_id('checkcode')

left  = img.location['x']#验证码图片左上角横坐标

top    = img.location['y']#验证码图片左上角纵坐标

right  = left + img.size['width']#验证码图片右下角横坐标

bottom = top + img.size['height']#验证码图片右下角纵坐标

im=Image.open('./images/zhiwang.png')

im_crop=im.crop((left,top,right,bottom))#这个im_crop就是从整个页面截图中再截出来的验证码的图片

im_crop.save('./images/zrecaptchar.png')

img =Image.open('./images/zrecaptchar.png')

img.show()

#可以看出,验证码文本一般都是黑色的,背景则会更加明亮,所以我们可以通过检查像素是否为黑色将文本分离出来,该处理过程又被称为阈值化。通过 Pillow 可以很容易地实现该处理过程。

gray = img.convert('L')#灰度化,图片转化成灰度图

gray.show()

#二值化,指定而二值化的阈值,默认阈值127

threshold =135

table = []

for i in range(256):

    if i < threshold:

        table.append(0)

    else:

        table.append(1)

bw = gray.point(table,'1')

bw.show()

strcode = pytesseract.image_to_string(bw)

checkCode.send_keys(strcode)

#模拟点击按钮

btnReg.click()


1-3
1-4


1-5

圆满结束,如果成功率不高的话,可以适当调整二值化阈值,不过总体成功率有待改善。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,992评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,212评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,535评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,197评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,310评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,383评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,409评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,191评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,621评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,910评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,084评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,763评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,403评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,083评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,318评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,946评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,967评论 2 351