关于Tesseract

Tesseract是一个流行的OCR(Optical Character Recognition,光学字符识别)库,通俗来说就是文本识别。Tesseract最初由HP(就是惠普啦)在1985年开始研发,后面貌似就没啥太重大的进展了;直到2005年HP将Tesseract开源,2006年开始交给Google维护。
Tesseract在进入3.0版本后各方面功能都有了长足的发展,尤其是3.02.02版本开始提供C-API,使得通过动态链接库与其他编程语言混合开发成为了可能。

安装Tesseract
首先安装Tesseract,参考官方wiki。Linux下直接通过包管理器安装(如apt-get install tesseract);Windows下3.02之后版本不提供安装包,但有一个3.05版的非官方安装包,点击直接下载,安装记得配置环境变量,C:\Program Files (x86)\Tesseract-OCR,这个是默认安装地址,环境变量里添加这个即可。

安装完成后在shell中输入
Bash

tesseract -v

即可看到版本信息

image.png

参考地址:
https://www.polarxiong.com/archives/python-pytesser-tesseract.html
tesseract下载地址:https://github.com/UB-Mannheim/tesseract/wiki

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容