Tesseract-OCR识别训练数学题集

概念学习:

Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强。

osd.traineddata的含义

Orientation and script detection (OSD)指的是页面的方向检测和文字的方向检测,指的是阅读的方向性。大多数情况阅读方向是从左到右的,读完上面一行再读下面一行。而古体中文,文字是竖着写的,阅读方向是从上到下的,行与行之间呢,是从右往左读的。

流程学习:

参考了下面两篇博文,就开始了自己的训练过程,本人要实现拍照搜题的功能,主要选取初一的数学题作为训练集来对识别匹配字库进行训练。

博文1:Tesseract训练中文字体识别 - 简书

博文2:Tesseract-OCR的简单使用与训练 - 小LiAn - 博客园

自己动手:

1.下载和安装tesseract:

下载地址下载,3.05.1版本的tesseract并安装,安装过程参照第一遍博客。

验证是否安装成功,cd到安装目录下:出现如下界面表示安装成功


2. 训练字库

具体过程参照第二篇博客,生成自己的字库

放到安卓文字识别里面使用,识别用于训练的图像时的速度就变得很快了。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Other API Examples 参考文档:https://github.com/tesseract-ocr/...
    行之与亦安阅读 20,568评论 1 26
  • 文章作者:Tyan博客:noahsnail.com | CSDN | 简书 声明:作者翻译论文仅为学习,如有侵权请...
    SnailTyan阅读 1,990评论 0 2
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 173,761评论 25 709
  • 活在过去的人最容易受伤,你对别人那么好,为什么不能对自己好一点,这个世界很美好,你应该看到,你也值得拥有。
    Z远远阅读 210评论 0 0
  • 《怎样联络》 天空不停下着小雨 我漫无目的得游走 阴霾让我感觉压抑 寂寞让我连 联络你的勇气都失去 我走在热闹人群...
    晚熟的柿子阅读 195评论 0 0