Tesseract-OCR 4.0学习(一)

源码下载地址:https://github.com/tesseract-ocr/tesseract

tesseract-ocr 4.0之前的版本编译请参考朋友的文章 https://www.jianshu.com/p/0a3386227981

根据说明4.0版本源码编译需要使用以下版本编译器:

不得已只能安装VS2015了~~

安装CPPAN(https://cppan.org/),什么是CPPAN呢?C++ Archive Network,C++包管理器。

下载cppan.exe到tesseract-master文件夹下

cd tesseract-master

cppan

cmake-gui

选择VS2015编译,执行configure。

这个过程可能有点长,执行完成后generate工程。

在编译过程中可能存在问题,主要是文件编码方式,可以使用文件  --》高级保存选项 选择编码 Unicode(UTF-8 带签名)-代码页65001,基本完成编译工作,可以找一些图片测试一下。

使用方法:

tesseract.exe xxx.jpg yyy -l chi_sim

运行结果是将名为xxx.jpg 使用中文简体字库将识别结果保存到yyy.txt中。经过简单的测试,识别效果较之前的版本有所提升。

相对于之前的版本,最新版本引入了CPPAN工具,这个具体如何完成包管理工作还有待研究,是否与python中的python install ** 或者linux中的apt-get呢?这个工具还有其他什么有意思的功能吗?抽空再研究研究。

第一次写,简单了点,随便看看喽。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 3,127评论 1 3
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,842评论 6 427
  • 有来自空处的风 掀起我的裙角 惊起 小小漪涟 风儿沁入我的面庞 使我的眼 冰冰凉凉 有来自空处的风 穿过我的头脑 ...
    清鱼清鱼阅读 554评论 0 51

友情链接更多精彩内容