Tess4J字库训练

首先准备好你的图片
使用VietOCR或者jTessBoxEditorFX生成tif文件

找到你的VietOCR或者jTessBoxEditorFX目录，双击.bat文件运行

强调一下文件格式

格式：[语言].[名称].exp[数字].tif
1. [语言]必须是在Tesseract-OCR/tessdata目录下存在的，当它生成tif文件会用这里面的语言包去识别，所以你要确保你的语言前缀是正确的！
2. [名称]是你自定义的名称，整个训练完成后这就是你自己的语言包前缀啦！
3. [数字]随便带一个1就行，没什么用，不过你可以当作你的版本号做个标识。

然后继续

生成.box文件

例如：tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox

然后矫正你的字符：

矫正完毕后切记！！！要保存！！点那个save按钮！！！

[00]生成.tr文件

格式：tesseract [fileName.tif] [fileName] nobatch box.train
例如：tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train

注意：第一个是要执行的文件eng.jxbocr.exp1.tif第二个是要生成的.tr文件名称，必须和要执行的文件名称保持一致，但是后缀不加，比如上面我的第二个参数eng.jxbocr.exp1。

[01]生成unicharset文件

格式：unicharset_extractor [文件名].box
例如：unicharset_extractor eng.jxbocr.exp1.box

[02]新建font_properties.txt文件

写入：jxbocr 0 0 0 0 0
表示：使用默认的字体，然后保存这个文本呢
注意：jxbocr是你上面文件名eng.jxbocr.exp1.tif的第二个字段

[03]生成shapetable文件

格式：shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如：shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr

[04]生成pffmtable和inttemp文件

格式：mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如：mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr

[05]生成normproto文件

格式：cntraining [文件名].tr
例如：cntraining eng.jxbocr.exp1.tr

[05]加上统一的前缀

前缀就是你的文件eng.jxbocr.exp1第二个字段jxbocr.，然后就是这个样子：

[06]生成traineddata文件

格式：combine_tessdata [第二字段]
例如：combine_tessdata jxbocr.

OK，训练完成！把你的语言包放到Tesseract-OCR/tessdata目录下，然后你可以测试识别一下，嘿嘿。

Tess4J字库训练

Tess4J字库训练

推荐阅读更多精彩内容