OCR入门(附数据集链接)

原创:PinkFeet

近日,“大学生用OCR+正则表达式快速核查学生核酸报告”的新闻火了,细心观察我们就能发现,生活里OCR的身影到处都是:文档扫描、车牌识别、证件识别等等。在这个信息技术高速发展的时代,越来越多的小事可以“智能化”、“信息化”,曾经需要浪费诸多人力物力才能完成的事,可以通过新的技术轻松地解决。


OCR是解决什么问题的技术

文章开头提到的新闻里,OCR技术到底解决了什么问题?上图是一张上海市健康云截图,复旦大学博士生使用OCR技术监测到文本,再提取其中的文字信息,每次核查数百人的截图仅需几分钟。抽象的字符让人感觉技术深不可测,但是等读者们稍作了解之后,会发现高科技是非常亲切实用的。OCR中文名叫做“光学字符识别”,它可以将名片、票据、身份证、驾照等文档资料中的文字和数字信息转换成文本信息,以电子形式保存,实现信息采集的快速录入。现在有非常多实现OCR功能的免费接口,传入图片路径,就可以调用接口函数,识别图片中的文字信息。

OCR的常见流程

常见OCR方法的具体过程通常分为以下四个步骤:

预处理:是对图像进行初步的处理,目的是减少图像中的无用信息,方便提取特征。常用的步骤有:灰度化、降噪、二值化、字符切分、归一化等。

特征提取和降维:是识别文字、数字的关键步骤之一。特征是识别文字的关键信息,每个不同的文字通过特征来和其他文字进行区分。数字和英文字符相对中文字符来说更容易区分。为了提高后续分类器的效果和效率,往往还要进行降维,进一步减少特征中的无用信息,同时把有用信息尽可能多地保留下来。

分类器设计:对特征进行识别,是进行文字、数字识别的关键步骤之一。在这一步中,分类器对特征进行分类,将其识别成对应的字符。分类器一般需要提前训练,常见的分类器有:支持向量机、神经网络等。

后处理:是对分类结果进行优化处理的步骤。经过分类器分类得到的结果是不完全准确的,比如对形近字的识别错误率比较高、识别结果存在排版错误,后处理就可以有针对性地解决这些问题。例如,通过语言模型校正将“存哪里”校正为“在哪里”,并对识别结果进行格式化。

正则表达式是什么

正则表达式在人物场景中承担的是什么责任呢?经过前面叙述的流程,从图片中提取出来的文字信息,需要进一步整理提取,实现自动化核查。正则表达式通常被用来检索、替换符合特定模式的文本。正则表达式可以提取出文本中的特定文本,即:姓名、证件号码、采样时间、检测结果等,再输出到Excel中。

OCR数据集

目前主流的OCR任务会使用深度学习方法,这意味着数据集是其中的关键。

文本检测数据集SynthText:https://www.robots.ox.ac.uk/~vgg/data/scenetext/

ICDAR是竞赛数据集,2003年、2013年、2015年、2017年分别开放了以下数据集: 

http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions

https://rrc.cvc.uab.es/?ch=2

https://rrc.cvc.uab.es/?ch=4

https://rrc.cvc.uab.es/?ch=5&com=introduction

谷歌图像中收集整理得到的IIIT 5K words数据集:http://cvit.iiit.ac.in/projects/SceneTextUnderstanding/IIIT5K.html

还有一些公开数据集,如:SVT、CUTE等。Github上有一个OCR数据汇总可以查看:https://github.com/WenmuZhou/OCR_DataSet

大多数OCR数据集包含的图像数量比较少,并不足以训练出一个模型,需要合成新的数据集使用。

小结

OCR技术不算是最新的技术,早在十年前它就火过,随着近年深度学习的迅速发展,基于深度学习的OCR技术也逐渐成熟,能够更好更灵活地应对不同场景,已经成为科技公司的能力标配。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 223,426评论 6 521
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 95,567评论 3 401
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 170,342评论 0 366
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 60,420评论 1 300
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 69,424评论 6 398
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,964评论 1 314
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 41,365评论 3 426
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 40,330评论 0 278
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,862评论 1 322
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,921评论 3 343
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 41,063评论 1 354
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,717评论 5 350
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 42,393评论 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,880评论 0 25
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 34,002评论 1 275
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 49,540评论 3 380
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 46,084评论 2 361