环境及版本
系统环境
- Linux version 2.6.32-573.18.1.el6.x86_64 (mockbuild@c6b8.bsys.dev.centos.org) (gcc version 4.4.7 20120313 (Red Hat 4.4.7-16) (GCC) ) #1 SMP Tue Feb 9 22:46:17 UTC 2016
- leptonica-1.72.tar.gz
- tesseract-3.04.00
说明
Tesseract的OCR引擎目前已经作为开源项目发布在Google Project 。它提供中文OCR,并提供了一个命令行工具。
pytesseract是python的一个包,是Tesseract的一个包装,方便调用。
leptonica一个用于图形图像处理的软件,提供了诸如图像文件I/O等功能。Tesseract依赖于leptonica。
安装过程
- 首先安装leptonica库
wget http: //www.leptonica.com/source/leptonica-1.72.tar.gz
tar -xvf leptonica-1.72.tar.gz
cd leptonica-1.72
./configure
此时发现
checking for PNG support ...
checking png.h usability... no
checking png.h presence... no
提示没有libpng,但是:
# yum install libpng
Package 2:libpng-1.2.49-2.el6_7.x86_64 already installed and latest version
那为啥还找不到呢?参考这里,找到解决方案,需要安装libpng-devel:
yum install libpng-devel
再次
./configure
至此,配置正常
然后是安装
make && make install
- 编译安装tesseract
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.00.tar.gz
mv 3.04.00 Tesseract3.04.00.tar.gz
tar -xvf Tesseract3.04.00.tar.gz
cd tesseract-3.04.00/
./configure
make && make install
- 下载安装英文,中文简体识别库
wget https://github.com/tesseractocr/tessdata/raw/master/eng.traineddata
wget https://github.com/tesseractocr/tessdata/raw/master/chi_sim.traineddata
解压后,放在相应的目录下即可
cp/mv *.traineddata /usr/local/share/tessdata/