一个表情包库的实现

前面说了需求,现在着手就干。之前犯过着手需求之后先考虑大框架的事情,结果想来想去太麻烦就搁浅了,这次直接干最核心的部分,图像中的文字识别。
初步想法是使用Python去做图像中的OCR识别,识别出表情包中的文字然后作为后续查询的关键字。
查了一些资料,基本都是使用tesseract+python实现,那我们先安装tesseract。因为我是用的是macOS,所以这里简单说下如何安装tesseract。Windows环境有exe安装文件,我就不多说了。

步骤

  1. 打开terminal,用homebrew安装tesseract库brew install tesseract。没有brew的,用下面的命令安装:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
  1. 安装python上的tesseract包pip install pytesseract
  2. tesseract-ocr下载中文数据集chi_sim.traineddata,放到/usr/local/Cellar/tesseract/[版本号]/share/tessdata
  3. 准备一张图片,我直接在本地截了一张图放在了桌面:


    test.png
  4. 打开terminal,在桌面上,输入vim orc.py,按i插入如下代码:
#!/usr/bin/env python
import pytesseract
from PIL import Image

# open image
image = Image.open('test.png')
code = pytesseract.image_to_string(image, lang='chi_sim')
print(code)
  1. 按下esc,输入wq保存,然后在terminal上执行如下命令:
chmod +x ocr.py
./ocr.py

可以看到控制台上输出了“百度一下”的样子,我们的第一个最简单的demo实现了!

后续

当前只能识别中文,而且是非常标准的中文,后续中图片中的文字情况可能非常复杂,还需要大量的验证。任重道远,还需虚心学习,切勿浮于表面。不过这次实验证实了这个方案是可行的。: )

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第一步安装 Tesserocr的安装爬虫过程中难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们...
    何苦_python_java阅读 12,680评论 0 1
  • 图形验证码识别技术: 阻碍我们爬虫的。有时候正是在登录或者请求一些数据时候的图形验证码。因此这里我们讲解一种能将图...
    久壑阅读 4,760评论 0 4
  • 在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用OCR来识别。 1. ...
    Einbahn_2018阅读 12,405评论 1 2
  • 本教程翻译自PyImageSearch英文原文 今天的博客文章是安装和使用Tesseract library 进行...
    TimBao阅读 25,713评论 2 2
  • 阳光满屋、心情飞扬 鲜花满屋、芳香四溢 不计得失、不纠未来 这就是我、逍遥曼妙
    逍遥曼妙阅读 4,466评论 18 9