2023-02-05【综述】Real-Time Scene Text Localization and Recognition

介绍了早期文本识别方法

总结

早期的STR工作对文本的特征提取是通过手工的方法【24,38】:
性能较差,而基于像素来定位图像中的文本,用集合的方法会带来大量的冗余子集
Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Real-time scene text localization and recognition | 10.1109/CVPR.2012.6248097

有文本本地化的方法来解决定位问题:
1.通过滑动窗口搜索【6,7】,缺点是算法复杂度取决于文本的范围
2.通过连通分量分析将像素分成区域查找单个字符【5】的方法不受文本范围、方向、字体的影响,缺点是对改变连接组件结构的杂波和遮挡敏感。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)
Epstein等人在[5]中的方法将输入图像转换为灰度空间,并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度,具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感,因为它依赖于成功的边缘检测,并且它仅为每个字符提供单个分割,这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法
[14,15]中提出的方法将字符检测为最大稳定极值区域(MSER)[11],并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况,其大小在阈值范围内几乎保持不变。这些方法表现良好,但在模糊图像或对比度低的字符上存在问题。

相关工作

2012
端到端实时场景文本定位和识别方法。通过将字符检测问题作为从极值区域集合(ER)中的有效顺序选择来实现实时性能。ER检测器对模糊、照明、颜色和纹理变化具有鲁棒性,并处理低对比度文本
在第一分类阶段,使用以每个测试区域的O(1)复杂度计算的新特征来估计每个ER是字符的概率。第二阶段仅选择具有局部最大概率的ER,其中使用更昂贵的计算特征来改进分类。然后,使用反馈循环的高效穷举搜索将ER分组为单词,并选择最可能的字符分割。最后,在使用合成字体训练的OCR阶段中识别文本。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)

介绍

字符串以正确的顺序标识图像中文本的每个字符。与通常只有一类对象的对象识别不同,对于给定的文本图像,可以有零个或多个字符。因此,STR模型更加复杂。与许多视觉问题类似,早期的方法[24,38]使用手工制作的特征,导致性能较差.

定位图像中的文本可能是一项计算上非常昂贵的任务,因为通常2^N个子集中的任何一个子集都可以对应于文本(其中N是像素数)。文本本地化方法以两种不同的方式处理这个问题。

基于滑动窗口[6,7]的方法将搜索限制为图像矩形的子集。这将检查文本是否存在的子集的数量减少到cN,其中c是一个常数,在非常小的值(<1)(对于单比例单旋转方法)和相对大的值(>1)(用于处理具有不同比例、方向、旋转、倾斜等的文本的方法)之间变化。

第二组[5]中的方法通过使用连接成分分析将像素分组为区域来查找单个字符,假设属于相同字符的像素具有相似的财产。连接组件方法在使用的财产(颜色、笔划宽度等)上有所不同。连接组件方法的优点是,其复杂性通常不取决于文本的财产(缩放范围、方向、字体),并且它们还提供分段这可以在OCR步骤中利用。它们的缺点是对改变连接组件结构的杂波和遮挡敏感。

相关工作

Epstein等人在[5]中的方法将输入图像转换为灰度空间,并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度,具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感,因为它依赖于成功的边缘检测,并且它仅为每个字符提供单个分割,这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法。ICDAR Robust Reading竞赛结果[10,9,20]也对这些方法及其性能进行了很好的概述。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)

[14,15]中提出的方法将字符检测为最大稳定极值区域(MSER)[11],并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况,其大小在阈值范围内几乎保持不变。这些方法表现良好,但在模糊图像或对比度低的字符上存在问题。根据ICDAR 2011稳健阅读比赛组织者[20]提供的描述,获胜方法基于MSER检测,但该方法它本身尚未发布,也不执行文本识别。

所提出的方法与基于MSER的方法[14,15]的不同之处在于,它测试了所有ER(不仅是MSER的子集),同时减少了内存占用并保持了相同的计算复杂性和实时性能。Zimmermann和Matas[12]首先提出了放弃MSER的稳定性要求并选择特定于类别(不一定稳定)的极值区域的想法,他们使用图像矩作为单片神经网络的特征,该网络针对给定的一组形状(例如纹理、特定字符)进行了训练。在我们的方法中,基于特定于字符检测的新特征,通过序列分类器实时选择合适的ER。此外,分类器被训练为输出概率,从而提取字符的若干分段。

作者工作

本文提出了一种端到端实时文本定位和识别方法。在分类的第一阶段,使用以O(1)复杂度计算的新特征来估计每个ER是字符的概率,并且仅选择具有局部最大概率的ER用于第二阶段,其中使用更昂贵的计算特征来改进分类。结果表明,包括新的梯度幅度投影ER覆盖了94.8%的字符。在标准PC上,该方法在800×600图像上的平均运行时间为0.3s。该方法在两个公共数据集上进行了评估。在ICDAR 2011数据集上,该方法在已发布的方法中实现了最先进的文本定位结果(召回率64.7%,精度73.1%,f-measure 68.7%),我们是第一个在ICDAR2011稳健阅读竞赛数据集上报告端到端文本识别结果的公司(召回率37.2%,精度37.1%,f-measure 36.5%)。在更具挑战性的街景文本数据集上,文本本地化的召回率(32.9%)

只能与Wang等人[21](29.0%)先前发表的方法进行比较,但由于Wang等人的方法使用了不同的任务公式和不同的评估协议,因此无法进行直接比较。通过在数据集中检测到的水印文本导致的“假阳性”,证明了所提出的方法对噪声和低对比度字符的鲁棒性。

SVT数据集中的文本检测。图像中的所有“假阳性”都是由嵌入数据集中的水印引起的。这证明了所提出的方法对噪声和低对比度字符的鲁棒性(右下角的感兴趣区域被放大,对比度被人为增加,“c©2007 Google”可读)

作者提出的方式对数据集中的水印都能检测,说明SVT有水印,作者模型对低对比度有很好的性能

可递增计算的描述符。阈值θ−1处已经存在的区域标记为灰色,阈值θ处的新像素标记为红色,阈值θ的结果区域用虚线勾勒

略看,觉得作者的方法应该是基于计算机图形学的类似碰撞方法

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容