tesserocr下载安装

安装 Tesseract 4.0.0

  1. 下载地址
    Index of /tesseract (uni-mannheim.de)

  2. 安装 tesseract-ocr-w64-setup-v4.0.0.20181030.exe

  3. 配置环境变量

  4. 将 tessdata 文件夹复制至 Python/Anaconda 安装目录中

  5. 测试是否安装成功

# cmd 输出版本号
tesseract -v
  1. 使用tesseract
    • cmd进入图片目录
    • 输入命令行 tesseract <picture_file> <output_file_name> -l chi_sim
    • 目录下找到输出文件 result.txt

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

使用tesseract
  1. 踩坑
    ERROR: tesserocr-2.4.0-cp37-cp37m-win_amd64 (1).whl is not a supported wheel on this platform.
    python -m pip install --upgrade pip

安装 Tesserocr

  1. pip3 install pillow
  2. 下载安装与Tesseract 版本对应的 Tesserocr文件地址 (github.com)
  3. pip install tesserocr-2.4.0-cp37-cp37m-win_amd54.whl
    install tesserocr
  4. 测试
# cmd python环境导入包tesserocr
>> python

>> import tesserocr
使用 tesserocr
  1. 踩坑
    报错没有Microsoft C++ Build Tools
  • 下载Microsoft C++ Build Tools
  • 下载匹配的whl文件,文件地址 (github.com)
    .whl 文件只有python3.7及3.6的,python从3.8降为3.7
  • conda install python=3.7
    python从3.8降为3.7后,pip不匹配,卸载pip后重新安装
  • ImportError: cannot import name 'InvalidSchemeCombination' from 'pip._internal.exceptions'报错
  • 删除报错文件夹下的pip和pip-20.2.4-py3.7.egg-info文件夹
  • 使用conda remove --force pip命令强制删除环境中pip
  • 使用conda install -c anaconda pip命令重新安装pip

参考文章:

  1. pip3 install tesserocr安装失败(已解决)_zoujin6649的博客-CSDN博客_tesserocr安装失败
  2. Tesseract-OCR 安装、中文识别与训练字库_氦叁的博客-CSDN博客
  3. Tesserocr库安装与使用 - 知乎 (zhihu.com)
  4. ImportError: cannot import name 'InvalidSchemeCombination' from 'pip._internal.exceptions'报错解决 - 嘉禾旧木 - 博客园 (cnblogs.com)
  5. Release tesserocr v2.4.0 (tesseract 4.0.0) · simonflueckiger/tesserocr-windows_build (github.com)
  6. tesserocr:第三方模块tesserocr安装 - 云+社区 - 腾讯云 (tencent.com)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容