首先我们在GitHub上找到了一些文档,在这里记录点学习内容。
文档来源:https://github.com/tesseract-ocr/docs
1、History
1) Timeline
Tesseract从1984年开始至今,中间1995年至2005年基本处于停滞状态(The dark ages),自从2005年HP开源,2006年被Google接手之后,又进入了新的发展阶段,也不知道这么有意思的OCR库经过了怎样的40年~~
上图中有几个比较重要的点:
Internationalized to 100+ languages
Layout analysis
Table Detection
Equation detection
Training Tools
PDF output
LSTM
具体实现还需要分块研究,以后再写。
Tesseract Coordinate System
左下角(bottom-left)为坐标原点(0,0)
Tesseract-OCR System
上图中展示了整个Tesseract 识别架构,包括自适应二值化,版面分析(我的理解是把整个页面中的表格、图片、文字等分类,提取出文字部分进行识别),文字识别等,其中的LSTM Line Recognizer 具体做了什么工作还有待研究,之后的X-Height Fix ,Fuzzy Space Fix, Word Bigram Fix等应该是根据识别结果不断调整参数,以适应不同文档的情况。
上图2显示了图1中 recognizer word pass1 中工作情况。这部分的工作重点是字符分割。
图3 说明了整个Tesseract文件结构以及功能说明。
谁来告诉我这是什么意思?
图6 很清晰地展示了识别操作的函数调用流程,这部分是整个OCR的核心,也是以后研究工作的重点。
以上内容介绍整体Tesseract架构和实例,官方文档图片较多,先保存下来,以后学习深入了再来补充整理。