如何解析图片文字进行文本分析

最近工作中需要解析图片中的文本信息,进行文本数据分析,首先需要提取图片中的文字,解决方案如下:

1、需要安装包

pip install Pillow
pip install pytesseract

2、提取示例

from PIL import Image
import pytesseract
im = Image.open('test.jpg')
print (pytesseract.image_to_string(im))

3、可能遇到问题

pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it's not in your PATH. See README file for more information.

解决方案:

  • Windows 安装需要从 https://github.com/UB-Mannheim/tesseract/wiki 下载二进制文件。
  • 添加 pytesseract.pytesseract.tesseract_cmd = 'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe' 到脚本中,或者添加到环境变量中。
from PIL import Image
import pytesseract
pytesseract.pytesseract.tesseract_cmd = "D:\\software\\tesseract_ocr\\tesseract.exe"
im = Image.open('test.jpg')
print (pytesseract.image_to_string(im))

4、参考链接

通过以上方案,完美解决了图片文字分析,英文文字识别率较高,你有什么好的解决方案,欢迎留言区交流学习。

如有需求,可以私聊合作。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容