Python 实现字符识别—Part3

如果你看的比较困惑的话,可以参考
Python 实现字符识别—Part1:关于PIL库的使用
http://www.jianshu.com/p/0a94d8ea2bf3
Python 实现字符识别—Part2:关于图形格式的基础知识和我的一个问题(欢迎大神来指点迷津)
http://www.jianshu.com/p/252ff113d1d0
Python 实现字符识别—Part3:关于完成验证码识别的前置操作,字符的提取和图像的分割
http://www.jianshu.com/p/4ff1559c1cf6
Python 实现字符识别—Part4 : 关于空间向量搜索算法paper的介绍
http://www.jianshu.com/p/b13b3905cc7d
Python 实现字符识别—Part5:关于使用空间向量搜索算法实现字符识别
http://www.jianshu.com/p/1905bf78f0bd

实现验证码的识别。
这一部分写的是,如果将一张验证码做一个基本的出来,然后切分成单个的字符。切分为单个的字符之后,就可以用机器学习,深度学习的方法来处理了。

验证码如下:


captcha.gif

切分之后:


6cfae00a3885ac953259737d39322c40.gif

08dcd88f635d6b3473f712706971c79a.gif

9abd605809d1f53aacf2179dd917ee7f.gif

52d99fe62c87df1a17a4a4dfaf4a9a26.gif

75bbc019ca226b60057df5e3cd595acf.gif

85d9dc1db27c9ee3c7463aeb3c7728bf.gif
image.png

第一部分 先把 红色字符和其他颜色作为背景的验证码,转换为一张灰度图。黑色是字体,白色是背景。

captcha.gif
222.gif
#coding:utf-8
import hashlib
import time
from PIL import Image

im=Image.open('captcha.gif')
#im = Image.open("captcha.gif")
#(将图片转换为8位像素模式)
im.convert("P")
im.show()

#測試代碼
#for xx in range(30):
#    for yy in range(30):
#        pix=im.getpixel((xx,yy))
#        print pix

#打印颜色直方图
#很坐標是0-255,表示P模式下面的0-255種顏色,縱坐標是表示圖片中對應的每個顏色的像素個數
print im.histogram()
his=im.histogram()

#dict 創建一個字典,來保存圖片裏面的像素分布 
values={}

for i in range(256):
    values[i]=his[i]

#給dict排序,然後保存前10名
lists=sorted(values.items(),key=lambda x:x[1],reverse=True)[:10]

#l[0]是0-255中的一樣顏色,比如255是白色,l[1] 是對應的像素的個數
for l in lists:
    print l[0],l[1]

#創建pic2
#以一個像素8bit的,大小是Im.size  背景顏色是255 白色
im2=Image.new("P",im.size,255)

for x in range(im.size[1]):
    for y in range(im.size[0]):
        pix=im.getpixel((y,x))
        #220 227 解釋一下 就是將紅色的像素 變成黑色
        if pix ==220 or pix==227:
            im2.putpixel((y,x),0)

#現在這張圖片是一張黑白的圖片,黑色是字符,白色是背景
#im2.show()
#嘗試着保存成jpg格式,結果失敗 原因 cannot write mode P as JPEG
#image = Image.new('RGB', (width, height), (255, 255, 255))
#好像這樣的才可以  
#記得以前數字圖像這門課好像講過  但是全tmd忘了
im2.save('222.gif','gif')

<br />

然后下面一部分是 将灰度图切割成单个的字符
#得到單個的字符,纵向切割圖片
#size[0]是長
#size[1]是寬

#縱向遍歷圖片 找到每個字符的起始的位置
inletter = False
foundletter=False
start = 0
end = 0
letters = []

for y in range(im2.size[0]):
    for x in range(im2.size[1]):
        pix=im2.getpixel((y,x))
        if pix != 255:
            inletter = True
    if foundletter == False and inletter == True:
        foundletter = True
        start = y

    if foundletter == True and inletter == False:
        foundletter = False
        end = y
        letters.append((start,end))

    inletter=False
print letters


#將分割後的圖片保存
count = 0
for letter in letters:
    m = hashlib.md5()
    im3 = im2.crop(( letter[0] , 0, letter[1],im2.size[1] ))
    m.update("%s%s"%(time.time(),count))
    im3.save("./%s.gif"%(m.hexdigest()))
    count += 1

结果就是单个字符被保存到文件:


image.png

保存成单个字符后,下面就可以用机器学习或其他人工智能的方法来处理了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,294评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,493评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,790评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,595评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,718评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,906评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,053评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,797评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,250评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,570评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,711评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,388评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,018评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,796评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,023评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,461评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,595评论 2 350

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,825评论 25 707
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,633评论 18 139
  • 如果你看的比较困惑的话,可以参考Python 实现字符识别—Part1:关于PIL库的使用http://www.j...
    DayDayUpppppp阅读 1,059评论 0 1
  • 作为一个前端程序猿,下面这些站会让你眼前一亮。 amazeui框架组建丰富 http://amazeui.org...
    欧巴冰冰阅读 8,810评论 18 303
  • 本人程序员,整理了不少技术文档资料,想分享出来,又不知道选哪一个开篇。 思考再三,海贼王 one piece感人瞬...
    耗子2015阅读 462评论 1 1