Windows下OCR中文识别训练字库

1、下载 jTessBoxEditor JavaFX版 (https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/),如下图:

image.png

2、下载JRE 1.8 (https://www.oracle.com/java/technologies/javase-jre8-downloads.html).
3、下载tesseract-ocr安装包 (https://github.com/UB-Mannheim/tesseract/wiki).
4、安装完成后添加环境变量,执行tesseract -v,结果如下:
image.png

5、下载中文训练库(https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
)放入Tesseract-OCR\tessdata目录下,执行tesseract --list-langs显示如下:
image.png

6、执行 tesseract ID.png output -l chi_sim 输出识别结果到output.txt文本中。
7、打开 jTessBoxEditor 指定tesseract的执行目录及训练库目录,并在tools菜单中选择merge tiff,打开转换ID.png被识别图片。
image.png

8、生成box文件 tesseract idtiff.tif idtiff -l chi_sim --psm 6 batch.nochop makebox。
9、生成box文件后使用jTessBoxEditor点击Box Editor选项卡打开idtiff.tif对比识别结果,校正完成后点击Save保存结果。
10、执行命令,执行完之后,会在当前目录生成font_properties文件
echo test 0 0 0 0 0 >font_properties
0 0 0 0 0 表示字体test的粗体、倾斜等共计5个属性。
11、执行下面命令生成.tr训练文件

tesseract idtiff.tif idtiff nobatch box.train

12、生成字符集文件:

unicharset_extractor idtiff.box

执行完之后会在当前目录生成一个名为“unicharset”的文件。
13、生成shape文件:

shapeclustering -F font_properties -U unicharset -O idtiff.tr

执行完之后,会生成 shapetable 和 zwp.unicharset 两个文件。
14、生成聚字符特征文件:

mftraining -F font_properties -U unicharset -O idtiff.tr

生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。
15、生成字符正常化特征文件:

cntraining idtiff.tr

生成 normproto 文件。
16、重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。
这里修改为idtrain.inttemp、idtrain.pffmtable、idtrain.shapetable和idtrain.normproto
17、合并训练文件:

combine_tessdata idtrain.
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容