1、准备工作
可以通过自己·操作系统下载对应版本号进行安装,下载地址如下
2、安装界面
双击文件,这里选择了一个tesseract-ocr-setup-4.0.0-alpha.20180109.exe 文件进行安装,也可以选择较新的版本或者通过自身的爱好来选型安装进行研究。
点击同意协议之后再点击next按钮一直到安装成功即可
3、环境变量的搭建
本人电脑(window10)安装目录在D:\Program Files\Tesseract-OCR
首先在我的【此电脑】进行选择属性(R)-->高级系统设置-->环境变量
在用户环境变量,新建 TESSDATA_PREFIX 值为 D:\Program Files\Tesseract-OCR\tessdata
在系统环境变量,新建 OCR_HOME 值为D:\Program Files\Tesseract-OCR
- 找到Path新建两个 TESSDATA_PREFIX和OCR_HOME参数进行配置,以%开始与结尾进行识别
4、语言数据包
由于安装默认不超过10个语言数据包,得自己到GitHub进行下载覆盖安装之后tessdata的目录即可
5、检验是否搭建完成
在命令控制台输入 tesseract -v 输出tesseract 4.0.0-alpha.20180109信息表示成功
将命令行切换至目标图像文件目录,比如我们转换文件为output.png(图片文件允许多种格式),位于D:\Program Files\Tesseract-OCR\img;然后在命令行中输入
tesseract output.png output.txt -l chi_sim
【语法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以chi_sim开头的语言文件chi_sim.traineddata 简体中文数据包),如不标-l eng则默认为eng。
- 识别出来的结果,此结果在output.txt文件里面