python使用tesseract-ocr识别认证码

我自己的理解：
 有可能绕过认证码尽量选择绕过去，请多尝试，绕过去爬取效率高不少；
先不考虑那些一天一套认证码的网站，百度“Python 认证码识别”，搜索得到的结果一般都是tersserocr、pytesser这几个；简单的说就是在你电脑上安装tesseract-ocr；然后使用Python中的subprocess.Popen执行对应的语句，捕捉终端、文件中显示的结果；所以不局限于语言；
此文包括安装步骤以及一些常见的错误；

简要步骤：

1、安装tesseract-ocr：
2、安装pytesser；
3、训练tesseract；
4、使用

详细过程

1、安装tesseract-ocr：

window
直接网上搜索就有了，exe很方便，也可以使用免安装的；

Linux
我的虚拟机是archlinux，pacman -S tesseract-ocr；
如果是ubuntu，请安装下面的一堆东西（这个我没有测试认证。。。来自网友）：

sudo apt-get install autoconf automake libtool
sudo apt-get install libpng12-dev
sudo apt-get install libjpeg62-dev
sudo apt-get install libtiff4-dev
sudo apt-get install zlib1g-dev
sudo apt-get install libleptonica # install leptonica
sudo apt-get install gcc
sudo apt-get install g++
sudo apt-get install automake
tar zxvf tesseract-3.00.tar.gz
cd tesseract-3.00 && ./configure && make && sudo make install

总的来说，缺什么补什么

2、安装pytesser；

pytersser的做法是，你输入图片之后，使用tersseract识别得到一个文件，这个文件名被固定了，再去读取文件得到识别结果；所以对于多线程需自己动手修改下；Python要使用pytesser得安依赖包PIL；
优先使用Python的pip安装，若出现问题则挽起袖子手动安装（这折腾也是无奈，只是自己手贱不知道动了py哪里，安装的时候出现ssl问题。。。）；

window：
如果你的机器是32位，恭喜，网上一堆32位系统的安装包；
64位系统的请到这里下载，都是编译好的：http://www.lfd.uci.edu/~gohlke/pythonlibs/

Linux：
默认安装路劲：/usr/local/lib 安装libjpeg：

$ tar zxvf jpegsrc.v7.tar.gz
$ cd jpeg-7
$ ./configure --enable-shared --enable-static
$ make
$ sudo make install

安装zlib：

$ tar zxvf zlib-1.2.8.tar.gz
$ cd zlib-1.2.8
$ ./configure
$ make
$ sudo make install

安装freetype

$ tar zxf freetype-2.6.1.tar.gz
$ cd freetype-2.6.1
$ ./configure
$ make
$ sudo make install

安装PIL unzip Imaging-1.1.7.zip cd Imaging-1.1.7 修改setup.py文件，修改配置文件路径 JPEG_ROOT = "/usr/local/include" ZLIB_ROOT = "/usr/local/include" FREETYPE_ROOT = "/usr/local/include"

bash-3.2$ python setup.py build_ext -i
c)测试编译： python selftest.py d)安装： python setup.py install

安装pytersser 方法很多：pip，github下载；

常见的错误提示：

AttributeError: 'NoneType' object has no attribute 'bands'
修改nano /usr/lib/python2.7/site-packages/PIL/Image.py

1496 行添加：self.load()
def split(self):
"Split image into bands"
self.load()
if self.im.bands == 1:
    ims = [self.copy()]
else:
    ims = []
    self.load()
    for i in range(self.im.bands):
        ims.append(self._new(self.im.getband(i)))
return tuple(ims)

OSError: [Errno 2] No such file or directory

原因可能很多：没有安装 tesseract-ocr；Python引用问题；图片不存在等；

使用Image_to_string时出现的问题：

Traceback (most recent call last):
File "C:\Users\TF-2016\Desktop\spider\ruijie\ruijie.py", line 33, in <module>
  print image_file_to_string('11.png', graceful_errors=True)
File "C:\Python27\lib\site-packages\pytesser\pytesser.py", line 48, in image_file_to_string
  call_tesseract(filename, scratch_text_name_root)
File "C:\Python27\lib\site-packages\pytesser\pytesser.py", line 23, in call_tesseract
  proc = subprocess.Popen(args)
File "C:\Python27\lib\subprocess.py", line 710, in __init__
  errread, errwrite)
File "C:\Python27\lib\subprocess.py", line 958, in _execute_child
  startupinfo)
WindowsError: [Error 2]

将需要运行的文件，直接放在pytesser的包下 或者

> import os
> os.chdir('C:\Python27\Lib\site-packages\pytesser')

3、训练tesseract：

《Python网络数据采集》中也有介绍；这里是使用jTessBoxEditor完成的，一个现成的工具；
如果采用默认的eng来识别认证码，基本不靠谱，各种杂数据；自己训练下数据好很多；

安装Tesseract-OCR之后就训练自己的识别库：

3.1、创建diff：

jTessBoxEditor--tool---merge tiff--shift select more image
diff 文件命名格式：[lang].[fontname].exp[num].tif
exp：num.font.exp0.tif

3.2、创建好tiff之后创建.box

tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox

3.3、文字矫正：

jTessBoxEditor--open--num.font.exp0.tif
简单描述一下： 打开tif之后默认已经进行了一次识别，需要做的是调整识别结果；可以调节识别框位置大小、识别结果；调整完毕后记得回车或者点击一下设置按钮；

3.4、定义字体特征文件：

创建font_properties文件，文件内容为： 
exp：font 0 0 0 0 0；表示字体不是粗体、斜体

3.5、生成traineddata文件

样本图片路劲下执行这些：也可以创建bat一次性执行完
tesseract.exe num.font.exp0.tif num.font.exp0 nobatch box.train
unicharset_extractor.exe num.font.exp0.box
mftraining -F font_properties -U unicharset -O num.unicharset     num.font.exp0.tr
cntraining.exe num.font.exp0.tr
rename normproto num.normproto
rename inttemp num.inttemp
rename pffmtable num.pffmtable
rename shapetable num.shapetable
combine_tessdata.exe num.

确认打印结果中的Offset 1、3、4、5、13这些项不是-1。

3.6、拷贝

最后将traineddata拷贝到：Tesseract-OCR--tessdata

3.7、测试

tesseract.exe pin.png result-eng -l eng
tesseract.exe pin.png result-num -l num

4、使用

import pytesser
from PIL import Image
im = Image.open('./pin.png')
im.show()
print pytesser.image_to_string(im)

目前识别率还是不理想，但已经可以用来跑数据了!!...（折腾的是微博（weibo.com）的认证码；如果是weibo.cn的认证码，我表示我自己输入十几次没一次通过，囧），考虑试试卷积~~

最后编辑于：2017.12.03 05:33:27

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342