介绍了早期文本识别方法
总结
早期的STR工作对文本的特征提取是通过手工的方法【24,38】:
性能较差,而基于像素来定位图像中的文本,用集合的方法会带来大量的冗余子集
Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Real-time scene text localization and recognition | 10.1109/CVPR.2012.6248097
有文本本地化的方法来解决定位问题:
1.通过滑动窗口搜索【6,7】,缺点是算法复杂度取决于文本的范围
2.通过连通分量分析将像素分成区域查找单个字符【5】的方法不受文本范围、方向、字体的影响,缺点是对改变连接组件结构的杂波和遮挡敏感。
Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)
Epstein等人在[5]中的方法将输入图像转换为灰度空间,并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度,具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感,因为它依赖于成功的边缘检测,并且它仅为每个字符提供单个分割,这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法
[14,15]中提出的方法将字符检测为最大稳定极值区域(MSER)[11],并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况,其大小在阈值范围内几乎保持不变。这些方法表现良好,但在模糊图像或对比度低的字符上存在问题。
相关工作
2012
端到端实时场景文本定位和识别方法。通过将字符检测问题作为从极值区域集合(ER)中的有效顺序选择来实现实时性能。ER检测器对模糊、照明、颜色和纹理变化具有鲁棒性,并处理低对比度文本
在第一分类阶段,使用以每个测试区域的O(1)复杂度计算的新特征来估计每个ER是字符的概率。第二阶段仅选择具有局部最大概率的ER,其中使用更昂贵的计算特征来改进分类。然后,使用反馈循环的高效穷举搜索将ER分组为单词,并选择最可能的字符分割。最后,在使用合成字体训练的OCR阶段中识别文本。
Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)
介绍
字符串以正确的顺序标识图像中文本的每个字符。与通常只有一类对象的对象识别不同,对于给定的文本图像,可以有零个或多个字符。因此,STR模型更加复杂。与许多视觉问题类似,早期的方法[24,38]使用手工制作的特征,导致性能较差.
定位图像中的文本可能是一项计算上非常昂贵的任务,因为通常2^N个子集中的任何一个子集都可以对应于文本(其中N是像素数)。文本本地化方法以两种不同的方式处理这个问题。
基于滑动窗口[6,7]的方法将搜索限制为图像矩形的子集。这将检查文本是否存在的子集的数量减少到cN,其中c是一个常数,在非常小的值(<1)(对于单比例单旋转方法)和相对大的值(>1)(用于处理具有不同比例、方向、旋转、倾斜等的文本的方法)之间变化。
第二组[5]中的方法通过使用连接成分分析将像素分组为区域来查找单个字符,假设属于相同字符的像素具有相似的财产。连接组件方法在使用的财产(颜色、笔划宽度等)上有所不同。连接组件方法的优点是,其复杂性通常不取决于文本的财产(缩放范围、方向、字体),并且它们还提供分段这可以在OCR步骤中利用。它们的缺点是对改变连接组件结构的杂波和遮挡敏感。
相关工作
Epstein等人在[5]中的方法将输入图像转换为灰度空间,并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度,具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感,因为它依赖于成功的边缘检测,并且它仅为每个字符提供单个分割,这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法。ICDAR Robust Reading竞赛结果[10,9,20]也对这些方法及其性能进行了很好的概述。
Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词,然后使用词典将字符分组为单词。该方法能够处理有噪声的数据,但其通用性受到限制,因为必须为每个单独的图像提供单词词典(在他们的实验中最多包含500个单词)
[14,15]中提出的方法将字符检测为最大稳定极值区域(MSER)[11],并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况,其大小在阈值范围内几乎保持不变。这些方法表现良好,但在模糊图像或对比度低的字符上存在问题。根据ICDAR 2011稳健阅读比赛组织者[20]提供的描述,获胜方法基于MSER检测,但该方法它本身尚未发布,也不执行文本识别。
所提出的方法与基于MSER的方法[14,15]的不同之处在于,它测试了所有ER(不仅是MSER的子集),同时减少了内存占用并保持了相同的计算复杂性和实时性能。Zimmermann和Matas[12]首先提出了放弃MSER的稳定性要求并选择特定于类别(不一定稳定)的极值区域的想法,他们使用图像矩作为单片神经网络的特征,该网络针对给定的一组形状(例如纹理、特定字符)进行了训练。在我们的方法中,基于特定于字符检测的新特征,通过序列分类器实时选择合适的ER。此外,分类器被训练为输出概率,从而提取字符的若干分段。
作者工作
本文提出了一种端到端实时文本定位和识别方法。在分类的第一阶段,使用以O(1)复杂度计算的新特征来估计每个ER是字符的概率,并且仅选择具有局部最大概率的ER用于第二阶段,其中使用更昂贵的计算特征来改进分类。结果表明,包括新的梯度幅度投影ER覆盖了94.8%的字符。在标准PC上,该方法在800×600图像上的平均运行时间为0.3s。该方法在两个公共数据集上进行了评估。在ICDAR 2011数据集上,该方法在已发布的方法中实现了最先进的文本定位结果(召回率64.7%,精度73.1%,f-measure 68.7%),我们是第一个在ICDAR2011稳健阅读竞赛数据集上报告端到端文本识别结果的公司(召回率37.2%,精度37.1%,f-measure 36.5%)。在更具挑战性的街景文本数据集上,文本本地化的召回率(32.9%)
只能与Wang等人[21](29.0%)先前发表的方法进行比较,但由于Wang等人的方法使用了不同的任务公式和不同的评估协议,因此无法进行直接比较。通过在数据集中检测到的水印文本导致的“假阳性”,证明了所提出的方法对噪声和低对比度字符的鲁棒性。
作者提出的方式对数据集中的水印都能检测,说明SVT有水印,作者模型对低对比度有很好的性能
略看,觉得作者的方法应该是基于计算机图形学的类似碰撞方法