图形验证识别-tesseract

下载地址:https://digi.bib.uni-mannheim.de/tesseract/
下载安装教程

1.path中添加环境变量

C:\Program Files (x86)\Tesseract-OCR(安装目录)

2.勾选了语言包,还需要添加环境变量

TESSDATA_PREFIX:C:\Program Files (x86)\Tesseract-OCR\tessdata
注意:跟参考文章有区别,需要指定都tessdata路径

3.验证环境变量配置

配置完成后在命令行输入tesseract -v,如果出现如下图所示,说明环境变量配置成功


image.png

4.验证安装

1.CMD控制台测试

测试图片:https://raw.githubusercontent.com/Python3WebSpider/TestTess/master/image.png
下载并保存图片,到图片的目录下执行,会在图片当前目录生成result.txt文本

image.png

2.中文语言识别

安装的时候勾选了language,所以在tessdata目录下有很多的语言包.如果没有就百度下载吧。
使用 tesseract -h 查看帮助命令
tesseract --list-langs 查看所有语言
tesserct a.png result -l chi_sim 指定中文语言 读取a.png 并保存文字到result

2.pythoncharm中测试

安装 pip install pytesseract

from  PIL import Image
import pytesseract
text=pytesseract.image_to_string(Image.open("image.png"))
print(text)

提示


image.png
解决办法

pytesseract安装后,在python的Lib目录下site-packges下会生成一个pytesseract文件夹,文件夹中找到pytesseract.py,路径为:虚拟环境\Lib\site-packages\pytesseract,使用notepad之类软件打开pytesseract.py,找到如下两行:

CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY
tesseract_cmd = 'tesseract'

把tesseract_cmd 值更改如下:
tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'(注意你的安装路径,r表示转义)
在执行就成功了。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容