Tesseract-OCR入门使用1
Tesseract-OCR入门使用2
Tesseract-OCR入门使用3
Tesseract API Example
环境:
- Python3.6
- Pycharm
- Win10
- tesseract-ocr-setup-3.05.00dev.exe
安装:
- 安装tesseract-orc的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文。安装过程和其他软件一样。
- pip install PIL
- pip install pytesseract
配置环境
1.设置 tesseract-orc路径
默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件
错误。
解决方法:
- 方法1:将
C:\Program Files (x86)\Tesseract-OCR
添加到系统路径(路径因安装过程而异) - 方法2:修改pytesseract.py文件,修改方法如下
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
- 设置训练集的位置
下载的默认训练集也没有添加到系统路径,会报错pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')
解决方法:
设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata
实例程序
from PIL import Image
import pytesseract
text = pytesseract.image_to_string(Image.open('seven.png', lang='chi_sim') # 识别中文
print(text)
其他版本
Ubuntu版本:
1.tesseract-ocr安装
- sudo apt-get install tesseract-ocr
2.pytesseract安装
- sudo pip install pytesseract
3.Pillow 安装
- sudo pip install pillow
其他linux版本(如centos):
1.tesseract-ocr安装
没找到直接命令安装,所以需要手动下载安装包。
https://github.com/tesseract-ocr/tesseract
在上述地址中下载最新的tesseract-ocr的安装包,并解压。
通过以下命令安装:
(1)cd tesseract-3.04.01
(2)./autogen.sh
(3)./configure
注意,如果出现error: leptonica not found,需要下载安装leptonica
http://www.leptonica.org/download.html
(4)make
(5)make install
(6)ldconfig
2.pytesseract安装
sudo pip install pytesseract
3.Pillow 安装
sudo pip install pillow