介绍了早期文本识别方法

总结

早期的STR工作对文本的特征提取是通过手工的方法【24，38】：
性能较差，而基于像素来定位图像中的文本，用集合的方法会带来大量的冗余子集
Sci-Hub | [IEEE 2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) - Providence, RI (2012.06.16-2012.06.21)] 2012 IEEE Conference on Computer Vision and Pattern Recognition - Real-time scene text localization and recognition | 10.1109/CVPR.2012.6248097

有文本本地化的方法来解决定位问题：
1.通过滑动窗口搜索【6，7】，缺点是算法复杂度取决于文本的范围
2.通过连通分量分析将像素分成区域查找单个字符【5】的方法不受文本范围、方向、字体的影响，缺点是对改变连接组件结构的杂波和遮挡敏感。

Wang等人的方法[21]使用滑动窗口方法找到单个字符作为视觉单词，然后使用词典将字符分组为单词。该方法能够处理有噪声的数据，但其通用性受到限制，因为必须为每个单独的图像提供单词词典（在他们的实验中最多包含500个单词）
Epstein等人在[5]中的方法将输入图像转换为灰度空间，并使用Canny检测器[1]来查找边缘。然后使用成对的平行边来计算每个像素的笔划宽度，具有相似笔划宽度的像素被分组为字符。该方法对噪声和模糊图像敏感，因为它依赖于成功的边缘检测，并且它仅为每个字符提供单个分割，这不一定是OCR模块的最佳分割。[24]中提出了具有不同连通分量算法的类似基于边缘的方法
[14，15]中提出的方法将字符检测为最大稳定极值区域（MSER）[11]，并使用MSER检测器获得的分割来执行文本识别。MSER是极值区域的一种特殊情况，其大小在阈值范围内几乎保持不变。这些方法表现良好，但在模糊图像或对比度低的字符上存在问题。

介绍

字符串以正确的顺序标识图像中文本的每个字符。与通常只有一类对象的对象识别不同，对于给定的文本图像，可以有零个或多个字符。因此，STR模型更加复杂。与许多视觉问题类似，早期的方法[24，38]使用手工制作的特征，导致性能较差.

定位图像中的文本可能是一项计算上非常昂贵的任务，因为通常2^N个子集中的任何一个子集都可以对应于文本（其中N是像素数）。文本本地化方法以两种不同的方式处理这个问题。

基于滑动窗口[6，7]的方法将搜索限制为图像矩形的子集。这将检查文本是否存在的子集的数量减少到cN，其中c是一个常数，在非常小的值（＜1）（对于单比例单旋转方法）和相对大的值（＞1）（用于处理具有不同比例、方向、旋转、倾斜等的文本的方法）之间变化。

第二组[5]中的方法通过使用连接成分分析将像素分组为区域来查找单个字符，假设属于相同字符的像素具有相似的财产。连接组件方法在使用的财产（颜色、笔划宽度等）上有所不同。连接组件方法的优点是，其复杂性通常不取决于文本的财产（缩放范围、方向、字体），并且它们还提供分段这可以在OCR步骤中利用。它们的缺点是对改变连接组件结构的杂波和遮挡敏感。

作者工作

本文提出了一种端到端实时文本定位和识别方法。在分类的第一阶段，使用以O（1）复杂度计算的新特征来估计每个ER是字符的概率，并且仅选择具有局部最大概率的ER用于第二阶段，其中使用更昂贵的计算特征来改进分类。结果表明，包括新的梯度幅度投影ER覆盖了94.8%的字符。在标准PC上，该方法在800×600图像上的平均运行时间为0.3s。该方法在两个公共数据集上进行了评估。在ICDAR 2011数据集上，该方法在已发布的方法中实现了最先进的文本定位结果（召回率64.7%，精度73.1%，f-measure 68.7%），我们是第一个在ICDAR2011稳健阅读竞赛数据集上报告端到端文本识别结果的公司（召回率37.2%，精度37.1%，f-measure 36.5%）。在更具挑战性的街景文本数据集上，文本本地化的召回率（32.9%）

只能与Wang等人[21]（29.0%）先前发表的方法进行比较，但由于Wang等人的方法使用了不同的任务公式和不同的评估协议，因此无法进行直接比较。通过在数据集中检测到的水印文本导致的“假阳性”，证明了所提出的方法对噪声和低对比度字符的鲁棒性。

作者提出的方式对数据集中的水印都能检测，说明SVT有水印，作者模型对低对比度有很好的性能

可递增计算的描述符。阈值θ−1处已经存在的区域标记为灰色，阈值θ处的新像素标记为红色，阈值θ的结果区域用虚线勾勒

略看，觉得作者的方法应该是基于计算机图形学的类似碰撞方法

2023-02-05【综述】Real-Time Scene Text Localization and Recognition

2023-02-05【综述】Real-Time Scene Text Localization and Recognition

总结

相关工作

介绍

相关工作

作者工作

相关阅读更多精彩内容

友情链接更多精彩内容