2023-02-03【STN+ResNet+BiLSTM+attn】比较STR模型中存在的问题是什么?从数据集和模型来分析

文献编号:3

文献著作信息:

What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis
What Is Wrong With Scene Text Recognition Model Comparisons? Dataset and Model Analysis.pdf

GitHub - clovaai/deep-text-recognition-benchmark: Text recognition (optical character recognition) with deep learning methods.

研究主题:

研究STR场景文本识别模型的对比的问题

研究问题:

Scene Text Recognition
STR dataset
STR model evaluate

研究原因:

每个研究STR的都说自己进步了,但是训练和评估数据集不一致,该领域缺乏全面和公正的比较
【真实数据集很贵】:所以作者训练用的合成的数据集

研究设计:

1、检查训练集和评估数据集的不一致,以及不一致导致的性能差距
2、引入一个统一的四阶段框架,大多数的STR模型都适用于该框架,这个框架可以评估以前的STR框架,发现以前没探索的组合【学术裁缝狂喜】

3、控制外部变量,分析模型准确度、速度、内存需求,外部变量就是一组一致的训练和评估数据集

研究发现(收获):

STN在对于不规则图像十分的重要
Resnet比VGG好但是更慢消耗的内存更多,模型参数大了30多倍
BiLSTM有用,但会整体减速
attn添加显着减慢了整体 STR 模型,相对于CTC来说
低分辨率图像依然很难利用本文模型来解决

研究结论:

在关键STR方法中引入通用框架
也引入了一致性数据集,7个通用benchmark数据集和2个训练数据集(MJSynth和SynthText)
MJSynth.pdf (arxiv.org)
SynthText.pdf (arxiv.org)
提供了在关键STR方法中的公平对比

MJ和ST都是合成数据集

数据集介绍

STR规则数据集

IIIT5K-Words (IIIT)[DOI: 10.5244/c.26.127]是从谷歌图像搜索中抓取的数据集,其中查询词可能返回文本图像,如“广告牌”、“招牌”、“门牌号”、“门牌号”和“电影海报”。IIIT包含2000张用于训练的图像和3000张用于评估的图像

街景文本(SVT)[DOI: 10.1109/iccv.2011.6126402]包含从谷歌街景中收集的户外街道图像。其中一些图像有噪声、模糊或分辨率低。SVT由257张用于训练的图像和647张用于评估的图像组成

ICDAR2003 (IC03)[DOI: 10.1109/icdar.2003.1227749]是为ICDAR2003健壮阅读比赛创建的,用于阅读相机捕捉的场景文本。它包含1156张用于训练的图像和1110张用于评估的图像。忽略所有太短(少于3个字符)或包含非字母数字字符的单词,可以将1,110张图像减少到867张。然而,研究人员使用了两个不同版本的数据集进行评估:拥有860张和867张图像的版本。与867数据集相比,860图像数据集缺少7个字框、

ICDAR2013 (IC13)[DOI: 10.1109/icdar.2003.1227749]继承了IC03的大部分图像,也是为ICDAR2013健壮阅读比赛而创建的。它包含848张用于训练的图像和1095张用于评估的图像,其中剔除带有非字母数字字符的单词会得到1015张图像。研究人员再次使用了两种不同的版本进行评估:857张和1015张图像。857个图像集是1015个图像集的子集,其中短于3个字符的单词被修剪。

其次,不规则数据集通常包含STR更困难的极端情况,例如弯曲和任意旋转或扭曲的文本

规则和不规则
STR不规则数据集

ICDAR2015 (IC15)[DOI: 10.1109/icdar.2015.7333942]是为ICDAR2015健壮阅读比赛创建的,包含4,468张用于训练的图像和2,077张用于评估的图像。这些图像是由谷歌眼镜在佩戴者的自然运动下拍摄的。因此,许多是嘈杂的,模糊的,旋转的,一些也是低分辨率的。研究人员再次使用了两个不同的版本进行评估:1811张和2077张图像。之前的论文[4,2]只使用了1811张图像,丢弃了非字母数字字符图像和一些极度旋转、透视移位和弯曲的图像进行评估。

SVT透视(SP)[DOI: 10.1109/iccv.2013.76]从谷歌街景中收集,包含645张用于评估的图像。由于非正面视点的流行,许多图像包含透视投影

CUTE80 (CT)[DOI: 10.1016/j.eswa.2014.07.008]采集自自然场景,包含288张裁剪图像用于评估。其中许多是弯曲的文本图像

表1

现有STR模型在训练和评估设置不一致的情况下的性能。这种不一致性妨碍了这些方法之间的公平比较。我们展示了原始论文报道的结果,也展示了我们在统一一致的设置下重新实现的结果。在最后一行,我们还展示了我们找到的最佳模型,它显示了与最先进的方法相比具有竞争力的性能。
表1为我们提供了一个关键问题,先前的工作在不同的基准数据集上评估了他们的模型。具体而言,对IC03、IC13和IC15中不同版本的基准进行了评估。在IC03中,7个例子可以导致0.8%的性能差距,这与之前的性能相比是一个巨大的差距。IC13和IC15的样例数差距甚至比IC03的更大

STR框架分析

由于 STR 与计算机视觉任务(例如对象检测)和序列预测任务的相似性,STR 受益于高性能卷积神经网络 (CNN) 和循环神经网络 (RNN)。CNN 和 RNN 在 STR、卷积循环神经网络 (CRNN) [24] 中的第一个组合应用,从输入图像中提取 CNN 特征,并将它们与 RNN 重新配置以进行稳健的序列预测。在 CRNN 之后,已经提出了多种变体 [25, 16, 18, 17, 28, 4, 3] 来提高性能
例如,为了校正任意文本几何图形,已经提出了转换模块来规范化文本图像[25,18,17]。为了处理具有高内在维度和潜在因素(例如字体样式和杂乱的背景)的复杂文本图像,已经结合了改进的 CNN 特征提取器 [16, 28, 4]。此外,随着人们越来越关注推理时间,一些方法甚至省略了 RNN 阶段 [3]。为了提高字符序列预测,已经提出了基于注意力的解码器 [16, 25]。从现有STR模型导出的四个阶段如下:


四阶段框架
转换 (Trans.)

转换 使用空间变压器网络 STN 对输入文本图像进行规范化,以简化下游阶段。

薄板键 (TPS) 变换是空间变换网络 (STN) 的一种变体,已应用于文本行的不同方面比率 。TPS 在一组基准点之间采用平滑线性插值。更准确地说,TPS 在上和下开发点找到多个基准点(图 3 中的绿色“+”标记,并将字符区域归一化为预定义的矩形。我们的框架允许选择或选择 TPS

特征提取(Feat.)

2.特征提取(Feat.)将输入图像映射到关注字符识别相关的属性的表示,同时抑制字体、颜色、大小和背景等不相关特征。

我们研究了 VGG [26]、RCNN [16] 和 ResNet [10] 的三种架构,以前用作 STR 的特征提取器。原始形式的 VGG 由多个卷积层组成,然后是几个全连接层 [26]。RCNN 是 CNN 的一种变体,可以根据字符形状递归地应用它来调整其感受野 [16, 28]。ResNet 是一个具有残差连接的 CNN,它简化了相对更深的 CNN 的训练。

序列建模(Seq.)

3.序列建模(Seq.)捕获下一阶段字符序列内的上下文信息,以更稳健地预测每个字符,而不是独立执行它。

阶段被重新整形为一系列特征 V。也就是说,特征图 vi ∈ V 中的每一列都用作序列的帧。然而,这个序列可能会受到上下文信息缺乏的影响。因此,之前的一些工作使用双向 LSTM (BiLSTM) 在特征提取阶段 [24, 25, 4] 之后做出更好的序列 H = Seq.(V)。另一方面,Rosetta [3] 删除了 BiLSTM 以降低计算复杂度和内存消耗。我们的框架允许 BiLSTM 的选择或去选择

预测(Pred.)
  1. 预测(Pred.)从图像中识别的特征估计输出字符序列

CTC 允许预测非固定数量的序列,即使给出了固定数量的特征。CTC 的关键方法是预测每一列的字符 (hi ∈ H),并通过删除重复的字符和空白将完整的字符序列修改为非固定的字符序列 [6, 24]。另一方面,Attn 自动捕获输入序列中的信息流以预测输出序列[1]。它使模型能够学习表示输出类依赖关系的字符级语言模型。

实施的部分

一些细节
验证集不包含 IC03 训练数据,因为它们中的一些在 IC13 的评估数据集中重复
https://cloud.google.com/vision?hl=zh-cn
作者用这个平台做的

模型分析

图4

STR 模块组合表现出的两种类型的权衡。Stars 表示先前提出的模型,圆形点代表我们的框架评估的新模块组合。红色实线表示组合中发现的权衡边界。每个图中的表格描述了模块组合以及它们在权衡领域的性能。粗体模块表示在组合之前直接更改的那些;这些模块在最小化添加的时间或内存成本的同时提高了先前组合的性能。

表 4a 所示,T1 通过不包括任何转换或顺序模块来取最小时间。从 T1 到 T5 移动,按顺序引入以下模块(用粗体表示):ResNet、BiLSTM、TPS 和 Attn。请注意,从 T1 到 T5,单个模块一次更改。我们的框架提供了平滑移动的方法,这些方法根据应用场景给出了最少的性能权衡。它们依次增加了整体STR模型的复杂性,从而提高了性能,但代价是计算效率。ResNet、BiLSTM 和 TPS 引入了相对适中的整体减速(1.3ms→10.9ms),同时大大提高了准确性(69.5%→82.9%)。另一方面,最终的变化 Attn 在效率 (27.6 ms) 上以巨大的成本仅将准确度提高了 1.1%。

至于表 4b 所示的准确度内存权衡,P1 是内存消耗最少的模型,从 P1 到 P5,内存和准确性之间的权衡发生。与精度-速度权衡一样,我们观察到每一步的单个模块移位到 P5,其中更改模块为:Attn、TPS、BiLSTM 和 ResNet。他们以内存为代价依次提高准确性。与 T1 中使用的 VGG 相比,我们观察到 P1-P4 中的 RCNN 较轻,并且提供了良好的准确性-内存权衡。RCNN 需要少量重复应用的独特 CNN 层。我们观察到转换、顺序和预测模块对内存消耗没有显着影响(1.9M→7.2M 参数)。虽然总体上是轻量级的,但这些模块提供了准确性改进(75.4%→82.3%)。另一方面,最终的变化 ResNet 以从 7.2M 增加到 49.6M 浮点参数为代价提高了 1.7% 的准确率。因此,可以保证关注内存消耗的从业者相对自由地选择专门的转换、顺序和预测模块,但应该避免使用 ResNet 等繁重的特征提取器。

【resnet占内存,且减速,如果对精度没有太大的工业需求可以考虑适当trade-off】

F5图 4 的颜色编码版本,根据预测(左)和特征提取(右)模块。它们分别被确定为速度和记忆的最重要因素。

速度和内存最重要的模块。我们根据模块选择对图 4 中的散点图进行颜色编码,确定了模块对速度和内存的影响。全套颜色编码图在补充材料中。在这里,我们展示了具有最速度和内存关键模块的散点图,即预测和特征提取模块,如图5所示。根据预测和特征模块,有清晰的组合集群。在精度和速度的权衡中,我们确定了 CTC 和 Attn 集群(Attn 的添加显着减慢了整体 STR 模型)。另一方面,对于准确性记忆权衡,我们观察到特征提取器对记忆的贡献最为显着。重要的是要认识到,每个标准的最重要模块是不同的,因此,不同应用场景和约束的从业者应该根据其需求查看不同的模块组合以获得最佳权衡。


表2四个阶段模块在总精度、推理时间和参数数量方面的研究。准确度是通过取包含该模块的组合结果的平均值来获得的。推理时间和参数的数量被测量为个体

ResNet、BiLSTM、TPS 和 Attn 的序列是来自 None-VGG-None-CTC 基础组合的模块最有效的升级顺序。这个顺序是相同的顺序

准确性记忆视角发现 RCNN、Attn、TPS、BiLSTM 和 ResNet 作为模块最有效的升级顺序,例如准确性记忆边界的顺序 (P1→P5)。有趣的是,时间模块的有效顺序与内存模块相反。模块的不同属性在实际应用中提供了不同的选择。此外,该模块在两个角度的排名与边界模块更改的顺序相同,这表明每个模块在所有组合下都具有相似的性能

TPS 转换将弯曲文本和透视文本标准化为标准化视图。从存储前符号的角度来看,预测结果显示出显着的改进,特别是对于圈品牌标志中的“POLICE”和“AIRWAYS”。高级特征提取器 ResNet 产生更好的表示能力,改进背景混乱“YMCA”、“CITYARTS”)和看不见的字体(“NEUMOS”)的情况。BiLSTM 通过调整感受野带来更好的上下文建模;它可以在“G20”结束时忽略不相关的裁剪字符(“I”,“EXIT”,“C”)。包括隐式字符级语言建模的注意力在“Hard”、“t”中的“a”和“HOUSE”中的“S”中找到缺失或遮挡的字符。这些示例提供了对模块在实际应用中的贡献点的一瞥。
【这些段的陈述就是在精度和时间和内存上的trade-off】

缺陷,待改进

框架失败的例子

其中低分辨率是无法识别的,契合textzoom研究方向

7

没有特定模块的 STR 组合的挑战性示例。没有未标记模块的所有 STR 组合都无法识别示例中的文本,但升级模块解决了这个问题【表达STN和其他如resnet对不规则图像准确度的提高的重要性】

书法字体:品牌的字体样式,例如“可乐”或街道上的商店名称,例如“咖啡”,仍然面临剩余的挑战。这种多样化的字符表达需要一个新的特征提取器来提供广义视觉特征。另一种可能的方法是正则化,因为模型可能会过度拟合训练数据集中的字体样式。

垂直文本:目前大多数 STR 模型都假设水平文本图像,因此在结构上无法处理垂直文本。一些 STR 模型 [30, 5] 也利用垂直信息,然而,垂直文本尚未明确覆盖。需要进一步研究以涵盖垂直文本

特殊字符:由于当前的基准不评估特殊字符,现有的工作在训练期间排除了它们。这导致故障预测。误导模型将它们视为字母数字字符。我们建议用特殊字符进行训练。这导致 IIIT 的准确度从 87.9% 提高到 90.3%

严重遮挡:目前的方法没有广泛地利用上下文信息来克服遮挡。未来的研究可能会考虑优越的语言模型来最大限度地利用上下文。

低分辨率:现有模型没有明确处理低分辨率情况;图像金字塔或超分辨率模块可以提高性能。

标签噪声:我们在失败示例中发现了一些嘈杂(不正确)的标签。我们检查了基准中的所有示例,以确定噪声标签的比率。所有基准数据集都包含噪声标签,不考虑特殊字符的情况下错误标签的比例为 1.3%,考虑特殊字符的错误标签为 6.1%,考虑案例敏感性的错误标签为 24.1%。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 229,732评论 6 539
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,214评论 3 426
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 177,781评论 0 382
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,588评论 1 316
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,315评论 6 410
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 55,699评论 1 327
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 43,698评论 3 446
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 42,882评论 0 289
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,441评论 1 335
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,189评论 3 356
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,388评论 1 372
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 38,933评论 5 363
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,613评论 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 35,023评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,310评论 1 293
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 52,112评论 3 398
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,334评论 2 377

推荐阅读更多精彩内容