





  • Tesseract-OCR引擎
  • jTessBoxEditor用来训练字库
  • Tesseract-OCR在centos 7中安装,jTessBoxEditor安装在win中


之所以选择在centos 7下安装Tesseract,因为在此之前安装过win版本,和在centos 6编译和yum安装过,但是在使用过程中都会提示缺少某一部分内容。
在centos 7下选择了yum安装。
[root@docker01 yum.repos.d]# yum install epel-release
[root@docker01 yum.repos.d]# yum install tesseract


 Package                                             架构                               版本                                                 源                                   大小
 tesseract                                           x86_64                             3.04.00-3.el7                                        epel                                 11 M
 cairo                                               x86_64                             1.14.2-1.el7                                         base                                711 k
 fontconfig                                          x86_64                             2.10.95-7.el7                                        base                                228 k
 fontpackages-filesystem                             noarch                             1.44-8.el7                                           base                                9.9 k
 giflib                                              x86_64                             4.1.6-9.el7                                          base                                 40 k
 graphite2                                           x86_64                             1.3.6-1.el7_2                                        updates                             112 k
 harfbuzz                                            x86_64                             0.9.36-1.el7                                         base                                156 k
 jbigkit-libs                                        x86_64                             2.0-11.el7                                           base                                 46 k
 leptonica                                           x86_64                             1.72-2.el7                                           epel                                928 k
 libICE                                              x86_64                             1.0.9-2.el7                                          base                                 65 k
 libSM                                               x86_64                             1.2.2-2.el7                                          base                                 39 k
 libX11                                              x86_64                             1.6.3-2.el7                                          base                                605 k
 libX11-common                                       noarch                             1.6.3-2.el7                                          base                                162 k
 libXau                                              x86_64                             1.0.8-2.1.el7                                        base                                 29 k
 libXdamage                                          x86_64                             1.1.4-4.1.el7                                        base                                 20 k
 libXext                                             x86_64                             1.3.3-3.el7                                          base                                 39 k
 libXfixes                                           x86_64                             5.0.1-2.1.el7                                        base                                 18 k
 libXft                                              x86_64                             2.3.2-2.el7                                          base                                 58 k
 libXrender                                          x86_64                             0.9.8-2.1.el7                                        base                                 25 k
 libXxf86vm                                          x86_64                             1.1.3-2.1.el7                                        base                                 17 k
 libicu                                              x86_64                             50.1.2-15.el7                                        base                                6.9 M
 libjpeg-turbo                                       x86_64                             1.2.90-5.el7                                         base                                134 k
 libpng                                              x86_64                             2:1.5.13-7.el7_2                                     updates                             213 k
 libthai                                             x86_64                             0.1.14-9.el7                                         base                                187 k
 libtiff                                             x86_64                             4.0.3-25.el7_2                                       updates                             169 k
 libwebp                                             x86_64                             0.3.0-3.el7                                          base                                170 k
 libxcb                                              x86_64                             1.11-4.el7                                           base                                189 k
 libxshmfence                                        x86_64                             1.2-1.el7                                            base                                7.2 k
 mesa-libEGL                                         x86_64                             10.6.5-3.20150824.el7                                base                                 74 k
 mesa-libGL                                          x86_64                             10.6.5-3.20150824.el7                                base                                184 k
 mesa-libgbm                                         x86_64                             10.6.5-3.20150824.el7                                base                                 40 k
 mesa-libglapi                                       x86_64                             10.6.5-3.20150824.el7                                base                                 39 k
 pango                                               x86_64                             1.36.8-2.el7                                         base                                287 k
 pixman                                              x86_64                             0.32.6-3.el7                                         base                                254 k


[root@docker01 tesseract]# tesseract

  tesseract imagename|stdin outputbase|stdout [options...] [configfile...]

OCR options:
  --tessdata-dir /path  specify the location of tessdata path
  --user-words /path/to/file    specify the location of user words file
  --user-patterns /path/to/file specify the location of user patterns file
  -l lang[+lang]        specify language(s) used for OCR
  -c configvar=value    set value for control parameter.
                        Multiple -c arguments are allowed.
  -psm pagesegmode      specify page segmentation mode.
These options must occur before any configfile.

pagesegmode values are:
  0 = Orientation and script detection (OSD) only.
  1 = Automatic page segmentation with OSD.
  2 = Automatic page segmentation, but no OSD, or OCR
  3 = Fully automatic page segmentation, but no OSD. (Default)
  4 = Assume a single column of text of variable sizes.
  5 = Assume a single uniform block of vertically aligned text.
  6 = Assume a single uniform block of text.
  7 = Treat the image as a single text line.
  8 = Treat the image as a single word.
  9 = Treat the image as a single word in a circle.
  10 = Treat the image as a single character.

Single options:
  -v --version: version info
  --list-langs: list available languages for tesseract engine. Can be used with --tessdata-dir.
  --print-parameters: print tesseract parameters to the stdout.


[root@docker01 tesseract]# tesseract --list-langs

List of available languages (2):


[root@docker01 tessdata]# pwd
[root@docker01 tessdata]# ll
总用量 37624
drwxr-xr-x 2 root root     4096 10月 25 22:51 configs
-rw-r--r-- 1 root root   171918 6月  25 2015 eng.cube.bigrams
-rw-r--r-- 1 root root       38 6月  25 2015 eng.cube.fold
-rw-r--r-- 1 root root      181 6月  25 2015 eng.cube.lm
-rw-r--r-- 1 root root   857304 6月  25 2015 eng.cube.nn
-rw-r--r-- 1 root root      254 6月  25 2015 eng.cube.params
-rw-r--r-- 1 root root 13020078 6月  25 2015 eng.cube.size
-rw-r--r-- 1 root root  2444187 6月  25 2015 eng.cube.word-freq
-rw-r--r-- 1 root root      996 6月  25 2015 eng.tesseract_cube.nn
-rw-r--r-- 1 root root 21876550 6月  25 2015 eng.traineddata
-rw-r--r-- 1 root root   124215 10月 25 23:08 normal.traineddata
-rw-r--r-- 1 root root      568 1月  26 2016 pdf.ttf
drwxr-xr-x 2 root root       92 10月 25 22:51 tessconfigs




jTessBoxEditor需要jre7(Java Runtime Environment)以上的版本支持。






[root@docker01 test01]# ll
总用量 24
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif


[root@docker01 test01]# tesseract 0.gif out.0 -l eng
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory


[root@docker01 test01]# ll
总用量 28
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif
-rw-r--r-- 1 root root    6 10月 26 00:52 out.0.txt


[root@docker01 test01]# cat out.0.txt



[root@docker01 test01]# for i in {1..5};do tesseract $i.gif out.$i -l eng;done   
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory


[root@docker01 test01]# ll
总用量 48
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif
-rw-r--r-- 1 root root    6 10月 26 00:52 out.0.txt
-rw-r--r-- 1 root root    9 10月 26 01:00 out.1.txt
-rw-r--r-- 1 root root    5 10月 26 01:00 out.2.txt
-rw-r--r-- 1 root root    6 10月 26 01:00 out.3.txt
-rw-r--r-- 1 root root    7 10月 26 01:00 out.4.txt
-rw-r--r-- 1 root root    5 10月 26 01:00 out.5.txt
[root@docker01 test01]# cat *.txt
nl 9c










mytest.tif文件上传到centos 7 系统上

[root@docker01 04test]# ll

总用量 100
-rw-r--r-- 1 root root 99212 10月 26 15:42 mytest.tif


[root@docker01 04test]# tesseract  mytest.tif mytest batch.nochop makebox

Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Page 1
Page 2
Page 3
Empty page!!
Empty page!!
Empty page!!
Page 4
Page 5
Page 6
Page 7
Empty page!!
Empty page!!
Empty page!!
Page 8
Page 9
Page 10
Page 11
Page 12
Page 13
Page 14
Page 15
Page 16
Page 17
Empty page!!
Empty page!!
Empty page!!
Page 18
Page 19
Page 20
Page 21
Empty page!!
Empty page!!
Empty page!!
Warning in pixReadMemTiff: tiff page 21 not found


[root@docker01 04test]# ll

总用量 108
-rw-r--r-- 1 root root  1005 10月 26 23:52 mytest.box
-rw-r--r-- 1 root root 99212 10月 26 15:42 mytest.tif
-rw-r--r-- 1 root root   101 10月 26 23:52 mytest.txt



  • 普通情况





  • 表中无内容


  • 识别一半


Run Tesseract for Training


把修正后的box文件传回centos7系统中,删除原来在centos 7系统中的box文件

[root@docker01 03test]# rm 200test.box

rm:是否删除普通文件 "200test.box"?y
[root@docker01 03test]# rz -by

rz waiting to receive.
Starting zmodem transfer.  Press Ctrl+C to cancel.
Transferring 200test.box...
  100%       9 KB       9 KB/sec    00:00:01       0 Errors
[root@docker01 03test]# tesseract 200test.tif 200test nobatch box.train


[root@docker01 03test]# ll

总用量 1756
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
Compute the Character Set


[root@docker01 03test]# unicharset_extractor 200test.box

Extracting unicharset from 200test.box
Wrote unicharset file ./unicharset.

新建文件“font_properties”。那么需要在目录下新建一个名字为“font_properties”的文件,并且输入文本 :
注意:这里 200test 必须与训练名中的名称保持一致,填入下面内容 ,这里全取值为0,表示字体不是粗体、斜体等等。

200test 0 0 0 0 0
[root@docker01 03test]# ll

总用量 1764
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
-rw-r--r-- 1 root root     18 10月 27 01:02 font_properties
-rw-r--r-- 1 root root   2301 10月 27 01:00 unicharset
[root@docker01 03test]# cat font_properties

200test 0 0 0 0 0


[root@docker01 03test]# mftraining -F font_properties  -U unicharset 200test.tr

Warning: No shape table file present: shapetable
Reading 200test.tr ...
Flat shape table summary: Number of shapes = 43 max unichars = 1 number with multiple unichars = 0
Warning: no protos/configs for Joined in CreateIntTemplates()
Warning: no protos/configs for |Broken|0|1 in CreateIntTemplates()


[root@docker01 03test]# cntraining 200test.tr

Reading 200test.tr ...
Clustering ...

Writing normproto ...

此时,在目录下应该生成若干个文件了,把unicharset, inttemp, normproto, pffmtable这四个文件加上前缀“200test.”。然后 合并训练文件

[root@docker01 03test]# ll

总用量 2100
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
-rw-r--r-- 1 root root     18 10月 27 01:02 font_properties
-rw-r--r-- 1 root root 323869 10月 27 01:03 inttemp
-rw-r--r-- 1 root root   5342 10月 27 01:04 normproto
-rw-r--r-- 1 root root    341 10月 27 01:03 pffmtable
-rw-r--r-- 1 root root    778 10月 27 01:03 shapetable
-rw-r--r-- 1 root root   2301 10月 27 01:00 unicharset


[root@docker01 03test]# ll

总用量 2100
-rw-r--r-- 1 root root  10210 10月 26 16:53 200test.box
-rw-r--r-- 1 root root 949532 10月 26 15:13 200test.tif
-rw-r--r-- 1 root root 830214 10月 27 00:58 200test.tr
-rw-r--r-- 1 root root    325 10月 27 00:58 200test.txt
-rw-r--r-- 1 root root     18 10月 27 01:02 font_properties
-rw-r--r-- 1 root root 323869 10月 27 01:03 test200.inttemp
-rw-r--r-- 1 root root   5342 10月 27 01:04 test200.normproto
-rw-r--r-- 1 root root    341 10月 27 01:03 test200.pffmtable
-rw-r--r-- 1 root root    778 10月 27 01:03 test200.shapetable
-rw-r--r-- 1 root root   2301 10月 27 01:00 test200.unicharse


[root@docker01 03test]# combine_tessdata test200.

Combining tessdata files
TessdataManager combined tesseract data files.
Offset for type  0 (test200.config                ) is -1
Offset for type  1 (test200.unicharset            ) is 140
Offset for type  2 (test200.unicharambigs         ) is -1
Offset for type  3 (test200.inttemp               ) is 2441
Offset for type  4 (test200.pffmtable             ) is 326310
Offset for type  5 (test200.normproto             ) is 326651
Offset for type  6 (test200.punc-dawg             ) is -1
Offset for type  7 (test200.word-dawg             ) is -1
Offset for type  8 (test200.number-dawg           ) is -1
Offset for type  9 (test200.freq-dawg             ) is -1
Offset for type 10 (test200.fixed-length-dawgs    ) is -1
Offset for type 11 (test200.cube-unicharset       ) is -1
Offset for type 12 (test200.cube-word-dawg        ) is -1
Offset for type 13 (test200.shapetable            ) is 331993
Offset for type 14 (test200.bigram-dawg           ) is -1
Offset for type 15 (test200.unambig-dawg          ) is -1
Offset for type 16 (test200.params-model          ) is -1
Output test200.traineddata created sucessfully.


[root@docker01 03test]# cp test200.traineddata /usr/share/tesseract/tessdata


[root@docker01 tesseract_test]# tesseract --list-langs
List of available languages (4):




[root@docker01 test01]# ll

总用量 44
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif


[root@docker01 test01]# for i in {1..5};do tesseract $i.gif out.$i -l test200;done
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
Warning in pixReadMemGif: writing to a temp file, not directly to memory


[root@docker01 test01]# ll
总用量 48
-rw-r--r-- 1 root root 1829 10月 24 16:05 0.gif
-rw-r--r-- 1 root root 1930 10月 24 16:05 1.gif
-rw-r--r-- 1 root root 1890 10月 24 16:05 2.gif
-rw-r--r-- 1 root root 1986 10月 24 16:05 3.gif
-rw-r--r-- 1 root root 1828 10月 24 16:05 4.gif
-rw-r--r-- 1 root root 1866 10月 24 16:06 5.gif
-rw-r--r-- 1 root root    6 10月 27 01:18 out.0.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.1.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.2.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.3.txt
-rw-r--r-- 1 root root    7 10月 27 01:18 out.4.txt
-rw-r--r-- 1 root root    6 10月 27 01:18 out.5.txt


[root@docker01 test01]# cat out.*




nl 9c




  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,295评论 6 512
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,928评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,682评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,209评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,237评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,965评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,586评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,487评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,016评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,136评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,271评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,948评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,619评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,139评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,252评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,598评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,267评论 2 358
