最近项目需要身份证识别文本,阿里云提供的服务很方便,但是太贵大概5元一次。
自己研究下开源的文本识别,做个笔记。
centos7下
安装 leptonica
wget http://www.leptonica.org/source/leptonica-1.72.tar.gz
tar xvzf leptonica-1.72.tar.gz
cd leptonica-1.72/
./configure
make && make install
安装tesseract-ocr
wget https://github.com/tesseract-ocr/tesseract/archive/3.04.zip
unzip3.04.zip
cd tesseract-3.04/
./configure
make && make install
sudo ldconfig
配置文件位置
/usr/local/share/tessdata
下载支持的语言对应的配置中
GitHub地址 https://github.com/tesseract-ocr/langdata
创建存放语言文件的文件夹/usr/local/share/tessdata/lang
修改配置的变量export TESSDATA_PREFIX=/some/path/to/tessdata
这里注意的是,我们修改的是路径的前缀
真实的语言文件的路径实际是/usr/local/share/tessdata/lang/tessdata