2019-10-09

文通科技:OCR识别的技术流程解析 

以下是OCR识别在具体技术实现时的步骤流程:

一、OCR识别预处理:灰度化(如果是彩色图像)、降噪、二值化、字符切分以及归一化这些子步骤。经过二值化后,图像只剩下两种颜色,即黑和白,其中一个是图像背景,另一个颜色就是要识别的文字了;降噪在这个阶段非常重要,降噪算法的好坏对特征提取的影响很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一个字识别的。如果文字行有倾斜的话往往还要进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸,在同一个规格下,才能应用统一的算法。

二、特征提取和降维:特征是用来识别文字的关键信息,每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说,这个特征提取是比较容易的,因为数字只有10个,英文字母只有52个,都是小字符集。对于汉字来说,特征提取比较困难,因为首先汉字是大字符集,国标中光是最常用的第一级汉字就有3755个;第二个汉字结构复杂,形近字多。在确定了使用何种特征后,视情况而定,还有可能要进行特征降维,这种情况就是如果特征的维数太高(特征一般用一个向量表示,维数即该向量的分量数),分类器的效率会受到很大的影响,为了提高识别速率,往往就要进行降维,这个过程也很重要,既要降低维数吧,又得使得减少维数后的特征向量还保留了足够的信息量(以区分不同的文字)。

三、分类器设计、训练和实际识别:分类器是用来进行识别的,就是对于第二步,对一个文字图像,提取出特征给分类器,分类器就对其进行分类,告诉你这个特征该识别成哪个文字。在进行实际识别前,往往还要对分类器进行训练,这是一个监督学习的案例。

四、OCR识别后处理:后处理是用来对分类结果进行优化的,第一,分类器的分类有时候不一定是完全正确的,比如对汉字的识别,由于汉字中形近字的存在,很容易将一个字识别成其形近字。后处理中可以去解决这个问题,比如通过语言模型来进行校正——如果分类器将“在哪里”识别成“存哪里”,通过语言模型会发现“存哪里”是错误的,然后进行校正。第二,OCR识别图像往往是有大量文字的,而且这些文字存在排版、字体大小等复杂情况,后处理中可以尝试去对识别结果进行格式化,比如按照图像中的排版排列。

文通技术沟通:胡友希13316946653

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 文通名片识别OCR详解 作为一名21世纪的职场人,如果你还揣着厚厚的名片夹,那你就真的OUT了,首先对于我们手头的...
    OCR识别专家阅读 248评论 0 0
  • 图像识别意义: 图像是指物体的描述信息,数字图像是一个物体的数字表示。视觉是人类感知外部世界的最重要手段,据统计,...
    木木口丁阅读 8,505评论 1 21
  • 陈染的《私人生活》是女作家中很独特的一本小说。独特之处在于,这不是主要讲爱情的,没有完整的事件结构,也不是...
    李米亚阅读 848评论 1 4
  • 这本书是我在逛微博,很喜欢的一个博主推荐的。她最喜欢的是 万物的追问 她先生最喜欢的是 马伯庸的 显微镜下的大明。...
    法桐阅读 729评论 0 1
  • 7.18 星期二 晴(95) 今天我们大人都忙得不可开交,儿子又不愿意和我们一起出来,只好把儿子一人独...
    王界程阅读 149评论 0 0