ABCNet: Real-time Scene Text Spotting with Adaptive Bezier-Curve Network
作者:Yuliang Liuzy , Hao Cheny, Chunhua Sheny, Tong Hey, Lianwen Jinz, Liangwei Wang
0 摘要
场景文本的检测和识别已受到越来越多的研究关注。 现有方法可以大致分为两类:基于字符(character-based)的方法和基于分段(segmentation-based)的方法。 这些方法要么用于字符注释的成本很高,要么需要维护复杂的管线,这通常不适用于实时应用程序。 在这里,我们通过提出自适应贝塞尔曲线网络(ABCNet)解决此问题。 我们的贡献包括三个方面:1)我们首次通过参数化的贝塞尔曲线自适应地拟合任意形状的文本。 2)我们设计了新颖的BezierAlign层,用于提取具有任意形状的文本实例的准确卷积特征,与以前的方法相比,显着提高了精度。 3)与标准包围盒检测相比,我们的贝塞尔曲线检测引入的计算开销可忽略不计,从而使我们的方法在效率和准确性上均具有优势。
对任意形状的基准数据集(即Total-Text和CTW1500)进行的实验表明,ABCNet达到了最先进的准确性,同时显着提高了速度。 特别是在Total-Text上,我们的实时版本比最新的最新方法快10倍以上,并且具有可识别的识别精度。
1 介绍
场景文本检测和识别由于其在计算机视觉中的众多应用而受到越来越多的关注。 尽管最近已经取得了巨大的进步[10、41、27、35、26、42],但由于其大小,纵横比,字体样式,透视图失真和形状的多样性,在野外检测和识别文本仍未解决。 。 尽管深度学习的出现大大改善了场景文本发现任务的性能,但当前的方法对于现实世界的应用仍然存在相当大的差距,尤其是在效率方面。
近年来,许多端到端方法[30、36、33、23、43、20]显着提高了任意形状的场景文本点样的性能。 但是,这些方法要么使用维护复杂流水线的基于分段的方法,要么需要大量昂贵的字符级注释。 此外,几乎所有这些方法的推理速度都很慢,从而妨碍了对实时应用程序的部署。 因此,我们的动机是设计一个简单而有效的端到端框架,以发现图像中的定向或弯曲场景文本[5、26],从而确保了快速的推理时间,同时达到了与最先进的方法同等甚至更好的性能。
为了实现此目标,我们提出了一种自适应Bezier曲线网络(ABCNet),它是一种端到端的可训练框架,用于任意形状的场景文本点样。 ABCNet通过简单而有效的Bezier曲线自适应实现任意形状的场景文本检测,与标准矩形边界框检测相比,其引入的计算开销可忽略不计。 此外,我们设计了一种新颖的特征对齐层——BezierAlign,以精确计算弯曲形状的文本实例的卷积特征,因此可以以几乎可以忽略的计算开销实现较高的识别精度。 首次,我们用参数化的贝塞尔曲线表示了定向文本或弯曲文本,结果表明了该方法的有效性。 我们的发现结果示例如图1所示。
请注意,诸如TextAlign [11]和FOTS [24]之类的先前方法可以视为ABCNet的特例,因为四边形边界框可以看作是具有4个直线边界的最简单的任意形状的边界框。 另外,ABCNet可以避免复杂的转换,例如2D注意力[19],使识别分支的设计相当简单。
我们将主要贡献总结如下:
1.为了在图像中准确定位定向的和弯曲的场景文本,我们首次使用Bezier曲线引入了一种新的简洁的弯曲场景文本的参数化表示形式。 与标准边界框表示相比,它引入的计算开销可忽略不计。
2.我们提出了一种采样方法,也称为BezierAlign,用于精确的特征对齐,因此识别分支可以自然地连接到整个结构。 通过共享主干特征,可以将识别分支设计为轻型结构。
3.我们方法的简单性使其可以实时执行推理。 ABCNet在两个具有挑战性的数据集Total-Text和CTW1500上实现了最先进的性能,展示了有效性和效率上的优势.