2018-01-13 mac上字库训练(Tesseract-OCR for mac )

零、软件功用和我使用背景

目标是识别某个app上所有的带汉字按钮。

一、参考文献及我的评判：

mac上文字识别(Tesseract-OCR for mac ) http://www.jianshu.com/p/016e55c25521 没有Tesseract-OCR使用经验建议先阅读这篇

https://blog.csdn.net/u010670689/article/details/78374623 训练字库参考

二、意外问题一览

识别成功率主要取决于你的字库。可以自行识别汉字录入字库。

识别成功率也受图片质量影响，背景要纯，文字对比全图要尽量大，但上下左右都要离开边缘4个像素。

三、基本流程命令

brew install tesseract

brew install --with-training-tools tesseract (加装一下训练工具)

下载中文语言库 https://github.com/tesseract-ocr/tessdata

命令行识别图片：

tesseract -l chi_sim huanyige.png a 识别中文图片

tesseract -l chi_sim+eng huanyige.png a 识别中文加英文图片

a表示输出文件名，写a就会输出到a.txt中。

tesseract --list-langs 列一下当前可用字库

python库 pytesseract

image_to_string(image, lang=None, boxes=False, config=None)

（可以识别文字同时，返回坐标，但实践加了要求同时提供坐标以后，出现识字不准问题，不清楚原因）

自行训练生成字库：

1）合并素材图片

jTessBoxEditor 合并多张图片merge tiff 得到huiyi.fitt

2）生成box文件

tesseract huiyi.tif huiyi -l chi_sim -psm 10 batch.nochop makebox

3）生成tr文件

。。。

算了隳易的文已经写的挺好，感谢。不准备把人家的东西抄一遍，毫无意义嘛。

想运用深度学习，自己训练个给力点的字库。到时候再记好了。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。