2023-02-05【综述】Real-Time Scene Text Localization and Recognition

介绍了早期文本识别方法

总结

早期的STR工作对文本的特征提取是通过手工的方法【24,38】:
性能较差,而基于像素来定位图像中的文本,用集合的方法会带来大量的冗余子集
Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Real-time scene text localization and recognition | 10.1109/CVPR.2012.6248097

有文本本地化的方法来解决定位问题:
1.通过滑动窗口搜索【6,7】,缺点是算法复杂度取决于文本的范围
2.通过连通分量分析将像素分成区域查找单个字符【5】的方法不受文本范围、方向、字体的影响,缺点是对改变连接组件结构的杂波和遮挡敏感。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)
Epstein等人在[5]中的方法将输入图像转换为灰度空间,并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度,具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感,因为它依赖于成功的边缘检测,并且它仅为每个字符提供单个分割,这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法
[14,15]中提出的方法将字符检测为最大稳定极值区域(MSER)[11],并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况,其大小在阈值范围内几乎保持不变。这些方法表现良好,但在模糊图像或对比度低的字符上存在问题。

相关工作

2012
端到端实时场景文本定位和识别方法。通过将字符检测问题作为从极值区域集合(ER)中的有效顺序选择来实现实时性能。ER检测器对模糊、照明、颜色和纹理变化具有鲁棒性,并处理低对比度文本
在第一分类阶段,使用以每个测试区域的O(1)复杂度计算的新特征来估计每个ER是字符的概率。第二阶段仅选择具有局部最大概率的ER,其中使用更昂贵的计算特征来改进分类。然后,使用反馈循环的高效穷举搜索将ER分组为单词,并选择最可能的字符分割。最后,在使用合成字体训练的OCR阶段中识别文本。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)

介绍

字符串以正确的顺序标识图像中文本的每个字符。与通常只有一类对象的对象识别不同,对于给定的文本图像,可以有零个或多个字符。因此,STR模型更加复杂。与许多视觉问题类似,早期的方法[24,38]使用手工制作的特征,导致性能较差.

定位图像中的文本可能是一项计算上非常昂贵的任务,因为通常2^N个子集中的任何一个子集都可以对应于文本(其中N是像素数)。文本本地化方法以两种不同的方式处理这个问题。

基于滑动窗口[6,7]的方法将搜索限制为图像矩形的子集。这将检查文本是否存在的子集的数量减少到cN,其中c是一个常数,在非常小的值(<1)(对于单比例单旋转方法)和相对大的值(>1)(用于处理具有不同比例、方向、旋转、倾斜等的文本的方法)之间变化。

第二组[5]中的方法通过使用连接成分分析将像素分组为区域来查找单个字符,假设属于相同字符的像素具有相似的财产。连接组件方法在使用的财产(颜色、笔划宽度等)上有所不同。连接组件方法的优点是,其复杂性通常不取决于文本的财产(缩放范围、方向、字体),并且它们还提供分段这可以在OCR步骤中利用。它们的缺点是对改变连接组件结构的杂波和遮挡敏感。

相关工作

Epstein等人在[5]中的方法将输入图像转换为灰度空间,并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度,具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感,因为它依赖于成功的边缘检测,并且它仅为每个字符提供单个分割,这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法。ICDAR Robust Reading竞赛结果[10,9,20]也对这些方法及其性能进行了很好的概述。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)

[14,15]中提出的方法将字符检测为最大稳定极值区域(MSER)[11],并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况,其大小在阈值范围内几乎保持不变。这些方法表现良好,但在模糊图像或对比度低的字符上存在问题。根据ICDAR 2011稳健阅读比赛组织者[20]提供的描述,获胜方法基于MSER检测,但该方法它本身尚未发布,也不执行文本识别。

所提出的方法与基于MSER的方法[14,15]的不同之处在于,它测试了所有ER(不仅是MSER的子集),同时减少了内存占用并保持了相同的计算复杂性和实时性能。Zimmermann和Matas[12]首先提出了放弃MSER的稳定性要求并选择特定于类别(不一定稳定)的极值区域的想法,他们使用图像矩作为单片神经网络的特征,该网络针对给定的一组形状(例如纹理、特定字符)进行了训练。在我们的方法中,基于特定于字符检测的新特征,通过序列分类器实时选择合适的ER。此外,分类器被训练为输出概率,从而提取字符的若干分段。

作者工作

本文提出了一种端到端实时文本定位和识别方法。在分类的第一阶段,使用以O(1)复杂度计算的新特征来估计每个ER是字符的概率,并且仅选择具有局部最大概率的ER用于第二阶段,其中使用更昂贵的计算特征来改进分类。结果表明,包括新的梯度幅度投影ER覆盖了94.8%的字符。在标准PC上,该方法在800×600图像上的平均运行时间为0.3s。该方法在两个公共数据集上进行了评估。在ICDAR 2011数据集上,该方法在已发布的方法中实现了最先进的文本定位结果(召回率64.7%,精度73.1%,f-measure 68.7%),我们是第一个在ICDAR2011稳健阅读竞赛数据集上报告端到端文本识别结果的公司(召回率37.2%,精度37.1%,f-measure 36.5%)。在更具挑战性的街景文本数据集上,文本本地化的召回率(32.9%)

只能与Wang等人[21](29.0%)先前发表的方法进行比较,但由于Wang等人的方法使用了不同的任务公式和不同的评估协议,因此无法进行直接比较。通过在数据集中检测到的水印文本导致的“假阳性”,证明了所提出的方法对噪声和低对比度字符的鲁棒性。

SVT数据集中的文本检测。图像中的所有“假阳性”都是由嵌入数据集中的水印引起的。这证明了所提出的方法对噪声和低对比度字符的鲁棒性(右下角的感兴趣区域被放大,对比度被人为增加,“c©2007 Google”可读)

作者提出的方式对数据集中的水印都能检测,说明SVT有水印,作者模型对低对比度有很好的性能

可递增计算的描述符。阈值θ−1处已经存在的区域标记为灰色,阈值θ处的新像素标记为红色,阈值θ的结果区域用虚线勾勒

略看,觉得作者的方法应该是基于计算机图形学的类似碰撞方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,245评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,749评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,960评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,575评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,668评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,670评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,664评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,422评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,864评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,178评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,340评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,015评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,646评论 3 323
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,265评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,494评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,261评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,206评论 2 352

推荐阅读更多精彩内容