Tesseract 4.0在Centos 6上安装,存在很多坑,花了不少时间来处理,所以在这里给大家共享一下。
1.安装依赖工具
yum install autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel
在centos上的yum的autoconf版本是2.63,安装tesseract需要2.69,所以需要先手动升级autoconf
查看当前autoconf版本
rpm -qf /usr/bin/autoconf
autoconf-2.63-5.1.el6.noarch
卸载
rpm -e --nodeps autoconf-2.63
安装autoconf 2.69
wget ftp://ftp.gnu.org/gnu/autoconf/autoconf-2.69.tar.gz
tar zxvf autoconf-2.69.tar.gz
cd autoconf-2.69
./configure
make
make install
安装autoconf-archive
wget http://springdale.math.ias.edu/data/puias/computational/7/x86_64//autoconf-archive-2016.09.16-1.sdl7.noarch.rpm
rpm -i autoconf-archive-2016.09.16-1.sdl7.noarch.rpm
安装leptonica
wget http://www.leptonica.org/source/leptonica-1.74.4.tar.gz
tar zxvf leptonica-1.74.4.tar.gz
cd leptonica-1.74.4/
./configure
make
make install
安装C++11
这个需要增加一个yum的repo来进行安装
wget http://people.centos.org/tru/devtools-2/devtools-2.repo -O /etc/yum.repos.d/devtools-2.repo
yum install devtoolset-2-gcc devtoolset-2-binutils devtoolset-2-gcc-c++
ln -s /opt/rh/devtoolset-2/root/usr/bin/* /usr/local/bin/
这里要命的是http://people.centos.org/tru/非常慢,导致yum报错退出,可能需要翻墙才能搞掂
2.安装tesseract4
git clone https://github.com/tesseract-ocr/tesseract.git tesseract-ocr
cd tesseract-ocr
./autogen.sh
./configure PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
PKG_CONFIG_PATH=/usr/local/lib/pkgconfig 如果没有配置这个路径,会提示错误
make
make install
ldconfig
3.语言包
tesseract默认只有eng的语言包,需要手动下载
语言包的目录是 /usr/local/share/tessdata
下载地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-400
如果觉得识别率比较低,可以使用经过训练的语言包,把语音包下载到下面的目录里面
mkdir /usr/local/share/tessdata_best
下载地址:https://github.com/tesseract-ocr/tessdata_best
测试
tesseract some.jpeg mytxt --tessdata-dir /usr/local/share/tessdata_best/ -l eng