Windows下OCR中文识别训练字库

1、下载 jTessBoxEditor JavaFX版 (https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/)，如下图：

image.png

2、下载JRE 1.8 (https://www.oracle.com/java/technologies/javase-jre8-downloads.html).
3、下载tesseract-ocr安装包 (https://github.com/UB-Mannheim/tesseract/wiki).
4、安装完成后添加环境变量，执行tesseract -v，结果如下：

image.png

5、下载中文训练库（https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
）放入Tesseract-OCR\tessdata目录下，执行tesseract --list-langs显示如下：

image.png

6、执行 tesseract ID.png output -l chi_sim 输出识别结果到output.txt文本中。
7、打开 jTessBoxEditor 指定tesseract的执行目录及训练库目录，并在tools菜单中选择merge tiff，打开转换ID.png被识别图片。

image.png

8、生成box文件 tesseract idtiff.tif idtiff -l chi_sim --psm 6 batch.nochop makebox。
9、生成box文件后使用jTessBoxEditor点击Box Editor选项卡打开idtiff.tif对比识别结果，校正完成后点击Save保存结果。
10、执行命令，执行完之后，会在当前目录生成font_properties文件
echo test 0 0 0 0 0 >font_properties
0 0 0 0 0 表示字体test的粗体、倾斜等共计5个属性。
11、执行下面命令生成.tr训练文件

tesseract idtiff.tif idtiff nobatch box.train

12、生成字符集文件：

unicharset_extractor idtiff.box

执行完之后会在当前目录生成一个名为“unicharset”的文件。
13、生成shape文件：

shapeclustering -F font_properties -U unicharset -O idtiff.tr

执行完之后，会生成 shapetable 和 zwp.unicharset 两个文件。
14、生成聚字符特征文件：

mftraining -F font_properties -U unicharset -O idtiff.tr

生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。
15、生成字符正常化特征文件：

cntraining idtiff.tr

生成 normproto 文件。
16、重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。
这里修改为idtrain.inttemp、idtrain.pffmtable、idtrain.shapetable和idtrain.normproto
17、合并训练文件：

combine_tessdata idtrain.

最后编辑于：2021.04.12 23:23:45

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

Windows下OCR中文识别训练字库

Windows下OCR中文识别训练字库

相关阅读更多精彩内容

友情链接更多精彩内容