2021表格识别

一、简单介绍和参考文章

基于2021年的表格识别赛事来看看最近的表格领域的现状。

1.1 参考文章：

ICDAR 2021 Competition on Scientific
Literature Parsing ：https://arxiv.org/pdf/2106.14616.pdf
表格识别方法综述:https://zhuanlan.zhihu.com/p/385673899
综述1：https://mp.weixin.qq.com/s/LtLOgfjM0vwTa9HO1qPNHw
综述2：https://blog.csdn.net/yuquan0405/article/details/109602557?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-3&spm=1001.2101.3001.4242
ICDAR 2019表格识别论文与竞赛综述（上）：https://blog.csdn.net/moxibingdao/article/details/106667444
ICDAR 2019表格识别论文与竞赛综述（下）：https://cloud.tencent.com/developer/article/1546181
上述论文、代码、数据集链接：https://blog.csdn.net/lz8674227
ICDAR21表格解析方案汇总

1.2 数据介绍：

2021年表格检测的数据和标注PubTabNet
数据包括 500777训练数据以及9115验证数据。赛事目标是将表格图片数据整理为HTML表格数据；需要准确识别表格结构以及表格内的每个单元格的文字信息。
数据下载地址：https://developer.ibm.com/exchanges/data/all/pubtabnet/#
数据github介绍 https://github.com/lmpan/PubTabNet
数据简单jupyter notebook的展示形式：https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/0aa641b0-af25-4470-b9e1-6b33d6b5b66a/view?access_token=b7d5880bb60c253457a72e3ec76f9ab40ccc42c607331acdcbbbe21be4c46bc8&cm_sp=ibmdev--developer-exchanges--cloudreg

如果需要进行表格训练的话，可以参考下面这些表格数据：

上面提到的pubtabnet数据集，优点是数据量很大，缺点是没有每个单元格的位置标注，单元格中文本框位置标注。因此如果训练的模型需要的是表格横竖线位置或者是单元格位置作为GT，这个数据集不是很适合，考虑到空白单元格的情况，即使想要自己转换，难度也不小。
UNLV数据集，这个数据集包括了557张图片。缺点是数据量比较小。优点很多，首先是数据比较接近真实情况，有很多无框线和半框线的表格数据；其次是标注数据包括表格位置、表格横竖线位置、表格单元格位置、文字框位置；很适合各种表格模型的训练，稍做处理就可以转为自己想要的格式。
TIES_DataGeneration这个项目是2019年ICDAR会议《Rethinking Table Recgnition Neural Network》作者开源的一个可以自动生成表格的代码。可以生成下面几种格式的表格。实际操作了一下，主要是借助浏览器工具进行表格创建的，因此主要还是基于html的标签。结果中会有每个文本框的位置信息，中间结果会有三个矩阵用于表征每个文本框是否属于同个单元格、是否属于同行、是否属于同列，如果需要重构单元格的信息，还需要琢磨一下。

Data_generation
ICDAR2013的表格数据，百张左右。
TableBank，资源从这篇博客看到的表格检测与识别的数据集TableBank,我申请了两天，暂时没有收到邮件反馈，后来发现可以在https://doc-analysis.github.io/tablebank-page/index.html这个网址上直接下载，傻了.....
ICDAR2019_cTDaR
ICDAR2019的数据包括3600张图片，分为训练集和测试集。一共有三个任务，TASKA是表格检测任务，TASKB1是表格识别任务，也就是根据表格区域识别表格的结构。TASKB2是表格检测和表格识别任务，即给定一个图片，需要同时给出表格区域和识别表格结构。ICDAR2019的数据主要是历史手写表格数据集、现在的手写表格数据集以及少量的电子文档图片。GT给出的标注是单元格的四点坐标位置、行列信息，没有给出其中的文本框坐标；需要特别注意的是，对于少量的电子文档图片，给出的坐标是其中文本框的坐标，不是单元格的坐标信息，一定要仔细检查图片之后在用于训练或者测试。

1.3 赛事排名

2021 ICDAR赛事排名

二、平安的思路：基于Master模型

这篇看起来结构比较清晰，所以放在第一个了。
论文地址：https://arxiv.org/pdf/2105.01848.pdf
代码位置：暂无，附上MASTER模型的github地址https://github.com/wenwenyu/MASTER-pytorch

将整个任务分为四个部分：表格结构识别、文本行检测、文本行识别、框分配。
表格结构识别基于MASTER模型，这是2021年的一篇文字识别模型；文本行检测模型采用的PSENET；文本行识别模型采用MASTER；在框分配阶段，对文本行检测模型得到的文本行以及通过表格结构识别得到的表格结构，将识别到的文字内容分配进去。

表格识别网络结构

表格识别网络采用了两个分支的修改版本MASTER模型，在第一个Transformer层之后进行分支解耦。

第一个分支用于从图像中学习HTML序列特征，序列由下面的39个类别组合而成,采用标准的交叉熵损失函数计算LOSS。

HTML序列学习
第二个分支用于回归单元格位置，采用L1 LOSS回归归一化的 $[x,y,w,h]$ 在损失函数之前会采用Sigmoid 激活函数（这应该是作者尝试之后的优化策略）。

表格单元格回归

表格识别之后的文字检测和文字识别过程忽略不说。

在框分配阶段采用了下面三个分配原则：中心点原则、IOU最大原则以及距离最近原则。

中心点原则：文本行识别中心点在表格回归的单元格位置上，这样就构成一个matching pair,一根表格单元格可以有多个文本行与之对应，因为单元格的多行是常见情况。
IOU最大原则：如果第一条中心点原则不能匹配，那么计算文本行和单元格的IOU，选择最大IOU的单元格作为匹配单元格。
距离最近原则:如果上述两条原则都不能满足要求，则计算文本行和所有单元格的欧氏距离。将文本框分配给具有最小欧式距离的单元格。

训练细节:

PSENET文本行识别网络：batchsize=10；图片采用相同的大小 $640\times 640$ ; 数据扩充策略采用随机翻转和随机裁剪；采用Adam优化器方法，初始学习率为0.001。
表格结构训练中，采用8个Tesla V100网络，batchsize为6；图像输入大小为 $480\times 480$ ;根据上述HTML序列预测的类别设计，大部分图片的输出序列长度不到500；异步BN（这个主要用于分布式训练）和Ranger optimizer优化器被采用。初始学习率为0.001，学习率阶段性下降。下面是表格结构识别中采用的消融测试结果，(a)展示的采用ADAM优化器和Range优化器的结果；(b)展示在原始MASTER模型的解码器之间进行concatenate，结合三个transformer layer层间特征带来的增益；(c)展示了采用异步BN带来的增益：

消融测试

三、庖丁团队思路：基于Splerge表格识别网络

这个之前看过论文，思路也比较简单，所以放在第二个。
项目地址： https://github.com/CharlesWu123/SPLERGE
论文地址：https://ieeexplore.ieee.org/document/8977975
论文解读地址：https://www.jianshu.com/p/c7df3ebe3d44
该方案分成3大部分，文本检测，文字识别，表格结构识别。文本检测采用Detectors_cascade_rcnn_r50_2x 模型，识别采用 SAR_TF 模型，表格结构识别则采用SPLERGE 模型。并采用一些规则来对表格头和空白字符进行了后处理。

该方案的表格结构识别部分不是端到端的，而是由两个模型组成，split模型输入为裁切好的表格图像，输出表格的分割结构（行分割符，列分割符），merge模型输入split模型的输出结果和原始表格图，用来合并相邻的网格元素以恢复跨单元格，输出最终的表格结构。

image

四、基于海康威视的思路

这个看起来很高级，还没有来得及看，看了再补充。
项目代码https://github.com/hikopensource/DAVAR-Lab-OCR/tree/main/demo/table_recognition/datalist
论文解读： https://www.cnblogs.com/dan-baishucaizi/p/15540834.html

最后编辑于：2022.01.24 11:29:10

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,039评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,426评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,417评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,868评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,892评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,692评论 1赞 305
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,416评论 3赞 419
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,326评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,782评论 1赞 316
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,957评论 3赞 337
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,102评论 1赞 350
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,790评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,442评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,996评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,113评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,332评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,044评论 2赞 355