最近毕设在做Tesseract-OCR方面的项目,需要自己编译Tesseract库。
1 下载相应的软件与源代码
下载cppan并配置环境变量,地址: https://cppan.org/client/
下载cmake并配置环境变量,地址:https://cmake.org/download/
(注意不要下载错误的版本哦!)
下载tesseract4.0源代码,地址:https://github.com/tesseract-ocr/tesseract
2 运行cppan,下载相应的支持库
在WIndows PowerShell中运行以下命令。
(一种命令行外壳程序和脚本环境,相当于DOS的扩展。)
将路径切换到tesseract文件夹下,运行命令cppan,等待cppan程序运行。
(记得在运行此步骤之前关闭电脑管家,还要保持网络畅通~)
3 运行cmake,进行编译生成工程文件
先在tesseract文件夹下新建build文件夹,用来存放生成的VS2015的项目工程文件,并进入build目录下。
在Windows PowerShell下运行命令:cmake ..
(注意后面两个点,第一个点前面有空格,第二个点前面没有空格,在这里卡了好久!!!)
我是用cmake-gui编译的,先点Config,再点Generate,知道没有红色的变量为止。感觉这样更直观一点,而且我也是用这个编译后面才成功的。
4 进入工程文件,编译libtesseract
在build目录下找到tesseract.sln文件,用VS2015打开该文件。在菜单中选择生成解决方案的生成选项。
生成之后会出现错误,是由于编码原因造成的。点击错误,进入生成该错误的文件中 。在菜单栏中点击文件目录下的高级保存选项。
将编码由Unicode(UTF-8无签名)更换为 简体中文(GB2312)
(在另一篇博客上看到改成 Unicode(UTF-8带签名)也可以)
然后再进行生成。成功生成后进入tesseract工程下,右键选择生成 。
5 配置TESSDATA_PREFIX环境变量
在tesseract目录中的tessdata文件下应该要下载对应语言的训练文件。
下载地址:https://github.com/tesseract-ocr/tessdata
然后在环境变量中创建一个名为TESSDATA_PREFIX的系统变量,该变量的值为tessdata文件夹的路径。
参考博客地址:http://lib.csdn.net/article/deeplearning/67228
我开始用的是VS2017,在执行cmake命令的时候总是报 “找不到C/C++编译器的错误”。之后重新安装了VS2015,就不再报错了。不知道是cmake对VS2017的支持不好还是我安装的时候有问题。
重装一次VS真是要我老命!!!
今天追完了《Unnatural》~