文献编号：3

文献著作信息：

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis.pdf

GitHub - clovaai/deep-text-recognition-benchmark: Text recognition (optical character recognition) with deep learning methods.

研究主题：

研究STR场景文本识别模型的对比的问题

研究问题：

Scene Text Recognition
STR dataset
STR model evaluate

研究原因：

每个研究STR的都说自己进步了，但是训练和评估数据集不一致，该领域缺乏全面和公正的比较
【真实数据集很贵】：所以作者训练用的合成的数据集

研究设计：

1、检查训练集和评估数据集的不一致，以及不一致导致的性能差距
2、引入一个统一的四阶段框架，大多数的STR模型都适用于该框架，这个框架可以评估以前的STR框架，发现以前没探索的组合【学术裁缝狂喜】

3、控制外部变量，分析模型准确度、速度、内存需求，外部变量就是一组一致的训练和评估数据集

研究发现（收获）：

STN在对于不规则图像十分的重要
Resnet比VGG好但是更慢消耗的内存更多，模型参数大了30多倍
BiLSTM有用，但会整体减速
attn添加显着减慢了整体 STR 模型，相对于CTC来说
低分辨率图像依然很难利用本文模型来解决

研究结论：

在关键STR方法中引入通用框架
也引入了一致性数据集，7个通用benchmark数据集和2个训练数据集（MJSynth和SynthText）
MJSynth.pdf (arxiv.org)
SynthText.pdf (arxiv.org)
提供了在关键STR方法中的公平对比

MJ和ST都是合成数据集

数据集介绍

STR规则数据集

IIIT5K-Words (IIIT)[DOI: 10.5244/c.26.127]是从谷歌图像搜索中抓取的数据集，其中查询词可能返回文本图像，如“广告牌”、“招牌”、“门牌号”、“门牌号”和“电影海报”。IIIT包含2000张用于训练的图像和3000张用于评估的图像

街景文本(SVT)[DOI: 10.1109/iccv.2011.6126402]包含从谷歌街景中收集的户外街道图像。其中一些图像有噪声、模糊或分辨率低。SVT由257张用于训练的图像和647张用于评估的图像组成

ICDAR2003 (IC03)[DOI: 10.1109/icdar.2003.1227749]是为ICDAR2003健壮阅读比赛创建的，用于阅读相机捕捉的场景文本。它包含1156张用于训练的图像和1110张用于评估的图像。忽略所有太短(少于3个字符)或包含非字母数字字符的单词，可以将1,110张图像减少到867张。然而，研究人员使用了两个不同版本的数据集进行评估:拥有860张和867张图像的版本。与867数据集相比，860图像数据集缺少7个字框、

ICDAR2013 (IC13)[DOI: 10.1109/icdar.2003.1227749]继承了IC03的大部分图像，也是为ICDAR2013健壮阅读比赛而创建的。它包含848张用于训练的图像和1095张用于评估的图像，其中剔除带有非字母数字字符的单词会得到1015张图像。研究人员再次使用了两种不同的版本进行评估:857张和1015张图像。857个图像集是1015个图像集的子集，其中短于3个字符的单词被修剪。

其次，不规则数据集通常包含STR更困难的极端情况，例如弯曲和任意旋转或扭曲的文本

规则和不规则

STR不规则数据集

ICDAR2015 (IC15)[DOI: 10.1109/icdar.2015.7333942]是为ICDAR2015健壮阅读比赛创建的，包含4,468张用于训练的图像和2,077张用于评估的图像。这些图像是由谷歌眼镜在佩戴者的自然运动下拍摄的。因此，许多是嘈杂的，模糊的，旋转的，一些也是低分辨率的。研究人员再次使用了两个不同的版本进行评估:1811张和2077张图像。之前的论文[4,2]只使用了1811张图像，丢弃了非字母数字字符图像和一些极度旋转、透视移位和弯曲的图像进行评估。

SVT透视(SP)[DOI: 10.1109/iccv.2013.76]从谷歌街景中收集，包含645张用于评估的图像。由于非正面视点的流行，许多图像包含透视投影

CUTE80 (CT)[DOI: 10.1016/j.eswa.2014.07.008]采集自自然场景，包含288张裁剪图像用于评估。其中许多是弯曲的文本图像

表1

现有STR模型在训练和评估设置不一致的情况下的性能。这种不一致性妨碍了这些方法之间的公平比较。我们展示了原始论文报道的结果，也展示了我们在统一一致的设置下重新实现的结果。在最后一行，我们还展示了我们找到的最佳模型，它显示了与最先进的方法相比具有竞争力的性能。
表1为我们提供了一个关键问题，先前的工作在不同的基准数据集上评估了他们的模型。具体而言，对IC03、IC13和IC15中不同版本的基准进行了评估。在IC03中，7个例子可以导致0.8%的性能差距，这与之前的性能相比是一个巨大的差距。IC13和IC15的样例数差距甚至比IC03的更大

STR框架分析

由于 STR 与计算机视觉任务（例如对象检测）和序列预测任务的相似性，STR 受益于高性能卷积神经网络 (CNN) 和循环神经网络 (RNN)。CNN 和 RNN 在 STR、卷积循环神经网络 (CRNN) [24] 中的第一个组合应用，从输入图像中提取 CNN 特征，并将它们与 RNN 重新配置以进行稳健的序列预测。在 CRNN 之后，已经提出了多种变体 [25, 16, 18, 17, 28, 4, 3] 来提高性能
例如，为了校正任意文本几何图形，已经提出了转换模块来规范化文本图像[25,18,17]。为了处理具有高内在维度和潜在因素（例如字体样式和杂乱的背景）的复杂文本图像，已经结合了改进的 CNN 特征提取器 [16, 28, 4]。此外，随着人们越来越关注推理时间，一些方法甚至省略了 RNN 阶段 [3]。为了提高字符序列预测，已经提出了基于注意力的解码器 [16, 25]。从现有STR模型导出的四个阶段如下:

四阶段框架

转换 (Trans.)

转换使用空间变压器网络 STN 对输入文本图像进行规范化，以简化下游阶段。

薄板键 (TPS) 变换是空间变换网络 (STN) 的一种变体，已应用于文本行的不同方面比率。TPS 在一组基准点之间采用平滑线性插值。更准确地说，TPS 在上和下开发点找到多个基准点（图 3 中的绿色“+”标记，并将字符区域归一化为预定义的矩形。我们的框架允许选择或选择 TPS

特征提取(Feat.)

2.特征提取(Feat.)将输入图像映射到关注字符识别相关的属性的表示，同时抑制字体、颜色、大小和背景等不相关特征。

我们研究了 VGG [26]、RCNN [16] 和 ResNet [10] 的三种架构，以前用作 STR 的特征提取器。原始形式的 VGG 由多个卷积层组成，然后是几个全连接层 [26]。RCNN 是 CNN 的一种变体，可以根据字符形状递归地应用它来调整其感受野 [16, 28]。ResNet 是一个具有残差连接的 CNN，它简化了相对更深的 CNN 的训练。

序列建模(Seq.)

3.序列建模(Seq.)捕获下一阶段字符序列内的上下文信息，以更稳健地预测每个字符，而不是独立执行它。

阶段被重新整形为一系列特征 V。也就是说，特征图 vi ∈ V 中的每一列都用作序列的帧。然而，这个序列可能会受到上下文信息缺乏的影响。因此，之前的一些工作使用双向 LSTM (BiLSTM) 在特征提取阶段 [24, 25, 4] 之后做出更好的序列 H = Seq.(V)。另一方面，Rosetta [3] 删除了 BiLSTM 以降低计算复杂度和内存消耗。我们的框架允许 BiLSTM 的选择或去选择

预测(Pred.)

预测(Pred.)从图像中识别的特征估计输出字符序列

CTC 允许预测非固定数量的序列，即使给出了固定数量的特征。CTC 的关键方法是预测每一列的字符 (hi ∈ H)，并通过删除重复的字符和空白将完整的字符序列修改为非固定的字符序列 [6, 24]。另一方面，Attn 自动捕获输入序列中的信息流以预测输出序列[1]。它使模型能够学习表示输出类依赖关系的字符级语言模型。

实施的部分

一些细节
验证集不包含 IC03 训练数据，因为它们中的一些在 IC13 的评估数据集中重复
https://cloud.google.com/vision?hl=zh-cn
作者用这个平台做的

模型分析

图4

STR 模块组合表现出的两种类型的权衡。Stars 表示先前提出的模型，圆形点代表我们的框架评估的新模块组合。红色实线表示组合中发现的权衡边界。每个图中的表格描述了模块组合以及它们在权衡领域的性能。粗体模块表示在组合之前直接更改的那些；这些模块在最小化添加的时间或内存成本的同时提高了先前组合的性能。

表 4a 所示，T1 通过不包括任何转换或顺序模块来取最小时间。从 T1 到 T5 移动，按顺序引入以下模块（用粗体表示）：ResNet、BiLSTM、TPS 和 Attn。请注意，从 T1 到 T5，单个模块一次更改。我们的框架提供了平滑移动的方法，这些方法根据应用场景给出了最少的性能权衡。它们依次增加了整体STR模型的复杂性，从而提高了性能，但代价是计算效率。ResNet、BiLSTM 和 TPS 引入了相对适中的整体减速（1.3ms→10.9ms），同时大大提高了准确性（69.5%→82.9%）。另一方面，最终的变化 Attn 在效率 (27.6 ms) 上以巨大的成本仅将准确度提高了 1.1%。

至于表 4b 所示的准确度内存权衡，P1 是内存消耗最少的模型，从 P1 到 P5，内存和准确性之间的权衡发生。与精度-速度权衡一样，我们观察到每一步的单个模块移位到 P5，其中更改模块为：Attn、TPS、BiLSTM 和 ResNet。他们以内存为代价依次提高准确性。与 T1 中使用的 VGG 相比，我们观察到 P1-P4 中的 RCNN 较轻，并且提供了良好的准确性-内存权衡。RCNN 需要少量重复应用的独特 CNN 层。我们观察到转换、顺序和预测模块对内存消耗没有显着影响（1.9M→7.2M 参数）。虽然总体上是轻量级的，但这些模块提供了准确性改进（75.4%→82.3%）。另一方面，最终的变化 ResNet 以从 7.2M 增加到 49.6M 浮点参数为代价提高了 1.7% 的准确率。因此，可以保证关注内存消耗的从业者相对自由地选择专门的转换、顺序和预测模块，但应该避免使用 ResNet 等繁重的特征提取器。

【resnet占内存，且减速，如果对精度没有太大的工业需求可以考虑适当trade-off】

F5图 4 的颜色编码版本，根据预测（左）和特征提取（右）模块。它们分别被确定为速度和记忆的最重要因素。

速度和内存最重要的模块。我们根据模块选择对图 4 中的散点图进行颜色编码，确定了模块对速度和内存的影响。全套颜色编码图在补充材料中。在这里，我们展示了具有最速度和内存关键模块的散点图，即预测和特征提取模块，如图5所示。根据预测和特征模块，有清晰的组合集群。在精度和速度的权衡中，我们确定了 CTC 和 Attn 集群（Attn 的添加显着减慢了整体 STR 模型）。另一方面，对于准确性记忆权衡，我们观察到特征提取器对记忆的贡献最为显着。重要的是要认识到，每个标准的最重要模块是不同的，因此，不同应用场景和约束的从业者应该根据其需求查看不同的模块组合以获得最佳权衡。

表2四个阶段模块在总精度、推理时间和参数数量方面的研究。准确度是通过取包含该模块的组合结果的平均值来获得的。推理时间和参数的数量被测量为个体

ResNet、BiLSTM、TPS 和 Attn 的序列是来自 None-VGG-None-CTC 基础组合的模块最有效的升级顺序。这个顺序是相同的顺序

准确性记忆视角发现 RCNN、Attn、TPS、BiLSTM 和 ResNet 作为模块最有效的升级顺序，例如准确性记忆边界的顺序 (P1→P5)。有趣的是，时间模块的有效顺序与内存模块相反。模块的不同属性在实际应用中提供了不同的选择。此外，该模块在两个角度的排名与边界模块更改的顺序相同，这表明每个模块在所有组合下都具有相似的性能

TPS 转换将弯曲文本和透视文本标准化为标准化视图。从存储前符号的角度来看，预测结果显示出显着的改进，特别是对于圈品牌标志中的“POLICE”和“AIRWAYS”。高级特征提取器 ResNet 产生更好的表示能力，改进背景混乱“YMCA”、“CITYARTS”）和看不见的字体（“NEUMOS”）的情况。BiLSTM 通过调整感受野带来更好的上下文建模；它可以在“G20”结束时忽略不相关的裁剪字符（“I”，“EXIT”，“C”）。包括隐式字符级语言建模的注意力在“Hard”、“t”中的“a”和“HOUSE”中的“S”中找到缺失或遮挡的字符。这些示例提供了对模块在实际应用中的贡献点的一瞥。
【这些段的陈述就是在精度和时间和内存上的trade-off】

缺陷，待改进

框架失败的例子

其中低分辨率是无法识别的，契合textzoom研究方向

没有特定模块的 STR 组合的挑战性示例。没有未标记模块的所有 STR 组合都无法识别示例中的文本，但升级模块解决了这个问题【表达STN和其他如resnet对不规则图像准确度的提高的重要性】

书法字体：品牌的字体样式，例如“可乐”或街道上的商店名称，例如“咖啡”，仍然面临剩余的挑战。这种多样化的字符表达需要一个新的特征提取器来提供广义视觉特征。另一种可能的方法是正则化，因为模型可能会过度拟合训练数据集中的字体样式。

垂直文本：目前大多数 STR 模型都假设水平文本图像，因此在结构上无法处理垂直文本。一些 STR 模型 [30, 5] 也利用垂直信息，然而，垂直文本尚未明确覆盖。需要进一步研究以涵盖垂直文本

特殊字符：由于当前的基准不评估特殊字符，现有的工作在训练期间排除了它们。这导致故障预测。误导模型将它们视为字母数字字符。我们建议用特殊字符进行训练。这导致 IIIT 的准确度从 87.9% 提高到 90.3%

严重遮挡:目前的方法没有广泛地利用上下文信息来克服遮挡。未来的研究可能会考虑优越的语言模型来最大限度地利用上下文。

低分辨率：现有模型没有明确处理低分辨率情况；图像金字塔或超分辨率模块可以提高性能。

标签噪声：我们在失败示例中发现了一些嘈杂（不正确）的标签。我们检查了基准中的所有示例，以确定噪声标签的比率。所有基准数据集都包含噪声标签，不考虑特殊字符的情况下错误标签的比例为 1.3%，考虑特殊字符的错误标签为 6.1%，考虑案例敏感性的错误标签为 24.1%。

2023-02-03【STN+ResNet+BiLSTM+attn】比较STR模型中存在的问题是什么？从数据集和模型来分析