OCR识别训练

============================身份证识别===============================

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程

机器学习训练样本,-》 。tranindata

2006年google 开源Android 中 : Tess-twoOCR 文字识别

OCR jTessBoxEditor////////////////////////////////训练分类器//////////////////////////

/step1: 搭建环境 jTessBoxEditorjTessBoxEditor,google OCRhttps://sourceforge.net/projects/vietocr/files/jTessBoxEditor/下载好的里面的E:\NDK\OCR\jTessBoxEditorFX-2.0-Beta\jTessBoxEditorFX\tesseract-ocr\tessdata\eng.traineddata 就是官方提供先训练好的分类器1.2 测试 tesseract 0.tif y -| eng.traineddata 0.tif ,源图片 y , 结果保存的txt 的文件名 -| eng.traineddata ,训练的分类器,这个是google提供出来的不能直接使用于身份证识别,不然还是有很多问题备注执行的时候还是要到tesseract 的文件夹下,不然会有一些问题如:E:\NDK\OCR\jTessBoxEditorFX-2.0-Beta\jTessBoxEditorFX\tesseract-ocr>tesseract F:\NDK2017-2\Lsn36_IDcard识别_2017-10-20\Lsn36_IDcard识别_2017-10-20\训练例子\sample\sample\sample1.tif y -| E:\NDK\OCR\jTessBoxEditorFX-2.0-Beta\jTessBoxEditorFX\tesseract-ocr\tessdata\eng.traineddataTesseract Open Source OCR Engine v4.0.0-alpha.20170804 with LeptonicaPage 1

  step2: 准备样本

  2.1 身份证号码那一截就可以,直接用画板截图然后更改文件的后缀名字为tif,得到 .tif格式图片。

   2.2 合并tif要执行一个工具文件E:\NDK\OCR\jTessBoxEditorFX-2.0-Beta\jTessBoxEditorFX java -jar jTessBoxEditorFX .jar jTessBoxEditorFX ->tools->merge tiff, 选择需要训练的tif 文件 , 然后出现save 界面,在这个 界面的命名的地方按照下面的规则命名 这个文件名必须是如下格式: [lang].[fontname].exp[num] lang:语言名(训练生成的示为语言) fontname:字体名 num:序号(无所谓) 于是可以得到一个命名为zh.song.exp0.tif 的文件

step3: 生成box 命令: tesseract [lang].[fontname].exp[num].tif [lang].[fontname].exp[num] batch.nochop makebox [lang].[fontname].exp[num] 2.2 给我们的结果, [lang].[fontname].exp[num] 名字与上面的相同,这个是保存box文件的名字(这个名字一定要和上面的相同) batch.nochop makebox

step4: 校正box 文件 ox文件记录的内容可能存在错误,比如 12345,在box中保存为1、2、34、5或者2、3、4、5或者1、a、5、4、5. 所以需要手动进行校正.jTessBoxEditor[Box Editor]点击open打开box记录的tif文件.对错误地方进行校正,注意多个tif合并而成的tif会有多个页面,完成之后Save. step5:训练 5.1 在训练的当前目录创建 font_properties 文件 文件内容为:内容:song 0 0 0 0 0

fontname:字体名

italic:斜体            0/1

bold:黑体              0/1

fixed:默认字体          0/1

serif:衬线字体          0/1

fraktur:德文黑字体      0/1

注意:5.2~ 5.6 都在step4.bat中,大家只需要修改bat 中的参数就可以了

5.2 产生字符特征文件

命令: tesseract number.song.exp0.tif number.song.exp0 box.train

number.song.exp0.tif  2.2 结果

number.song.exp0 对应的box

box.train

5.3 计算字符集

unicharset_extractor [lang].[fontname].exp[num].box

生成 unicharset 文件

命令:unicharset_extractor number.song.exp0.box

5.4 聚集字符特征

shapeclustering -F font_properties -U unicharset [lang].[fontname].exp[num].tr

[可以不运行] 生成 shapetable 文件

mftraining -F font_properties -U unicharset -O [lang].unicharset [lang].[fontname].exp[num].tr

生成 [lang].unicharset、inttemp(图形原型文件)、pffmtable(每个字符所对应的字符特征数文件)、shapetable(如果没有运行shapeclustering) 文件

命令:mftraining -F font_properties -U unicharset -O number.unicharset number.song.exp0.tr

5.5 生成字符形状正常化特征文件

cntraining [lang].[fontname].exp[num].tr

生成 normproto 文件

命令:cntraining number.song.exp0.tr

重命名shapetable, normproto, inttemp, pffmtable

[lang].shapetable

[lang].normproto

[lang].inttemp

[lang].pffmtable

名称:

number.shapetable

number.normproto

number.inttemp

number.pffmtable

5.6 生成tessdata文件

运行 combine_tessdata [lang].

得到 *.traineddata 结果

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容