1、下载 jTessBoxEditor JavaFX版 (https://sourceforge.net/projects/vietocr/files/jTessBoxEditor/),如下图:
2、下载JRE 1.8 (https://www.oracle.com/java/technologies/javase-jre8-downloads.html).
3、下载tesseract-ocr安装包 (https://github.com/UB-Mannheim/tesseract/wiki).
4、安装完成后添加环境变量,执行tesseract -v,结果如下:
5、下载中文训练库(https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
)放入Tesseract-OCR\tessdata目录下,执行tesseract --list-langs显示如下:
6、执行 tesseract ID.png output -l chi_sim 输出识别结果到output.txt文本中。
7、打开 jTessBoxEditor 指定tesseract的执行目录及训练库目录,并在tools菜单中选择merge tiff,打开转换ID.png被识别图片。
8、生成box文件 tesseract idtiff.tif idtiff -l chi_sim --psm 6 batch.nochop makebox。
9、生成box文件后使用jTessBoxEditor点击Box Editor选项卡打开idtiff.tif对比识别结果,校正完成后点击Save保存结果。
10、执行命令,执行完之后,会在当前目录生成font_properties文件
echo test 0 0 0 0 0 >font_properties
0 0 0 0 0 表示字体test的粗体、倾斜等共计5个属性。
11、执行下面命令生成.tr训练文件
tesseract idtiff.tif idtiff nobatch box.train
12、生成字符集文件:
unicharset_extractor idtiff.box
执行完之后会在当前目录生成一个名为“unicharset”的文件。
13、生成shape文件:
shapeclustering -F font_properties -U unicharset -O idtiff.tr
执行完之后,会生成 shapetable 和 zwp.unicharset 两个文件。
14、生成聚字符特征文件:
mftraining -F font_properties -U unicharset -O idtiff.tr
生成 inttemp、pffmtable、shapetable和zwp.unicharset四个文件。
15、生成字符正常化特征文件:
cntraining idtiff.tr
生成 normproto 文件。
16、重新命名inttemp、pffmtable、shapetable和normproto这四个文件的名字为[lang].xxx。
这里修改为idtrain.inttemp、idtrain.pffmtable、idtrain.shapetable和idtrain.normproto
17、合并训练文件:
combine_tessdata idtrain.