一、安装pytesseract和PIL
PIL全称:Python Imaging Library,python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力。
由于PIL仅支持到Python 2.7,所以在PIL的基础上创建了Pillow库,支持最新Python 3.x。
1、pip命令安装
pip install pytesseract
pip install Pillow
安装成功
二、安装识别引擎tesseract-ocr
1.Tesseract是开源的OCR引擎。Tesseract最初设计用于英文识别,经过改进引擎和训练系统,它能够处理其它语言和UTF-8字符。Tesseract 3.0能够处理任何Unicode字符,但并非在所有语言上都工作得很好。Tesseract在庞大字符集语言(比如中文)上较慢,但是工作良好。
链接: https://pan.baidu.com/s/1CtcVh9pzhdi5GGgxnIM4yw 提取码: jaba
image.png
双击安装tesseract-ocr-setup.exe
esseract-ocr默认不支持中文识别
将下载好的文件:chi_sim.traineddata 放到Tesseract-OCR安装目录
D:\Program Files (x86)\Tesseract-OCR\tessdata 下,如图:
image.png
此处我多添加了几个语言包,已经测试过了,需要的可以留言找我我可以发你
2,安装完成tesseract-ocr后,需要做一下配置 。
在Python安装目录(如:D:\Python\Python36\Lib\site-packages\pytesseract) 中修改 pytesseract.py文件。
image.png
新增tesseract的安装路径,注释掉原来的代码
image.png
3.尝试运行,
1.png
2.jpg
源码如下:
from PIL import Image
import pytesseract
Image = Image.open('2.jpg') # 打开图片
text = pytesseract.image_to_string(Image,lang='chi_sim') #使用简体中文解析图片
print(text)
结果是
image.png