Tess4J字库训练

Tess4J字库训练

  • 首先准备好你的图片
  • 使用VietOCR或者jTessBoxEditorFX生成tif文件

找到你的VietOCR或者jTessBoxEditorFX目录,双击.bat文件运行

强调一下文件格式

  • 格式:[语言].[名称].exp[数字].tif
    1. [语言]必须是在Tesseract-OCR/tessdata目录下存在的,当它生成tif文件会用这里面的语言包去识别,所以你要确保你的语言前缀是正确的!
    2. [名称]是你自定义的名称,整个训练完成后这就是你自己的语言包前缀啦!
    3. [数字]随便带一个1就行,没什么用,不过你可以当作你的版本号做个标识。

然后继续

  • 生成.box文件

例如:tesseract .\eng.jxbocr.exp1.tif .\eng.jxbocr.exp1 -l jxbocr batch.nochop makebox

然后矫正你的字符:


矫正完毕后切记!!!要保存!!点那个save按钮!!!

[00]生成.tr文件

格式:tesseract [fileName.tif] [fileName] nobatch box.train
例如:tesseract eng.jxbocr.exp1.tif eng.jxbocr.exp1 nobatch box.train

注意:第一个是要执行的文件eng.jxbocr.exp1.tif第二个是要生成的.tr文件名称,必须和要执行的文件名称保持一致,但是后缀不加,比如上面我的第二个参数eng.jxbocr.exp1

[01]生成unicharset文件

格式:unicharset_extractor [文件名].box
例如:unicharset_extractor eng.jxbocr.exp1.box

[02]新建font_properties.txt文件

写入:jxbocr 0 0 0 0 0
表示:使用默认的字体,然后保存这个文本呢
注意:jxbocr是你上面文件名eng.jxbocr.exp1.tif的第二个字段

[03]生成shapetable文件

格式:shapeclustering -F font_properties.txt -U unicharset [文件名].tr
例如:shapeclustering -F font_properties.txt -U unicharset eng.jxbocr.exp1.tr

[04]生成pffmtableinttemp文件

格式:mftraining -F font_properties.txt -U unicharset -O unicharset [文件名].tr
例如:mftraining -F font_properties.txt -U unicharset -O unicharset eng.jxbocr.exp1.tr

[05]生成normproto文件

格式:cntraining [文件名].tr
例如:cntraining eng.jxbocr.exp1.tr

[05]加上统一的前缀

前缀就是你的文件eng.jxbocr.exp1第二个字段jxbocr.,然后就是这个样子:

[06]生成traineddata文件

格式:combine_tessdata [第二字段]
例如:combine_tessdata jxbocr.

OK,训练完成!把你的语言包放到Tesseract-OCR/tessdata目录下,然后你可以测试识别一下,嘿嘿。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容