一、简单介绍和参考文章
基于2021年的表格识别赛事来看看最近的表格领域的现状。
1.1 参考文章:
- ICDAR 2021 Competition on Scientific
Literature Parsing :https://arxiv.org/pdf/2106.14616.pdf - 表格识别方法综述:https://zhuanlan.zhihu.com/p/385673899
- 综述1:https://mp.weixin.qq.com/s/LtLOgfjM0vwTa9HO1qPNHw
- 综述2:https://blog.csdn.net/yuquan0405/article/details/109602557?utm_medium=distribute.pc_relevant.none-task-blog-baidujs_title-3&spm=1001.2101.3001.4242
- ICDAR 2019表格识别论文与竞赛综述(上):https://blog.csdn.net/moxibingdao/article/details/106667444
- ICDAR 2019表格识别论文与竞赛综述(下):https://cloud.tencent.com/developer/article/1546181
- 上述论文、代码、数据集链接:https://blog.csdn.net/lz8674227
- ICDAR21表格解析方案汇总
1.2 数据介绍:
2021年表格检测的数据和标注PubTabNet
数据包括 500777训练数据以及9115验证数据。赛事目标是将表格图片数据整理为HTML表格数据;需要准确识别表格结构以及表格内的每个单元格的文字信息。
数据下载地址:https://developer.ibm.com/exchanges/data/all/pubtabnet/#
数据github介绍 https://github.com/lmpan/PubTabNet
数据简单jupyter notebook的展示形式:https://dataplatform.cloud.ibm.com/analytics/notebooks/v2/0aa641b0-af25-4470-b9e1-6b33d6b5b66a/view?access_token=b7d5880bb60c253457a72e3ec76f9ab40ccc42c607331acdcbbbe21be4c46bc8&cm_sp=ibmdev--developer-exchanges--cloudreg
如果需要进行表格训练的话,可以参考下面这些表格数据:
上面提到的pubtabnet数据集,优点是数据量很大,缺点是没有每个单元格的位置标注,单元格中文本框位置标注。因此如果训练的模型需要的是表格横竖线位置或者是单元格位置作为GT,这个数据集不是很适合,考虑到空白单元格的情况,即使想要自己转换,难度也不小。
UNLV数据集,这个数据集包括了557张图片。缺点是数据量比较小。优点很多,首先是数据比较接近真实情况,有很多无框线和半框线的表格数据;其次是标注数据包括表格位置、表格横竖线位置、表格单元格位置、文字框位置;很适合各种表格模型的训练,稍做处理就可以转为自己想要的格式。
-
TIES_DataGeneration这个项目是2019年ICDAR会议《Rethinking Table Recgnition Neural Network》作者开源的一个可以自动生成表格的代码。可以生成下面几种格式的表格。实际操作了一下,主要是借助浏览器工具进行表格创建的,因此主要还是基于html的标签。结果中会有每个文本框的位置信息,中间结果会有三个矩阵用于表征每个文本框是否属于同个单元格、是否属于同行、是否属于同列,如果需要重构单元格的信息,还需要琢磨一下。
ICDAR2013的表格数据,百张左右。
TableBank,资源从这篇博客看到的表格检测与识别的数据集TableBank,我申请了两天,暂时没有收到邮件反馈,后来发现可以在https://doc-analysis.github.io/tablebank-page/index.html这个网址上直接下载,傻了.....
ICDAR2019_cTDaR
ICDAR2019的数据包括3600张图片,分为训练集和测试集。一共有三个任务,TASKA是表格检测任务,TASKB1是表格识别任务,也就是根据表格区域识别表格的结构。TASKB2是表格检测和表格识别任务,即给定一个图片,需要同时给出表格区域和识别表格结构。ICDAR2019的数据主要是历史手写表格数据集、现在的手写表格数据集以及少量的电子文档图片。GT给出的标注是单元格的四点坐标位置、行列信息,没有给出其中的文本框坐标;需要特别注意的是,对于少量的电子文档图片,给出的坐标是其中文本框的坐标,不是单元格的坐标信息,一定要仔细检查图片之后在用于训练或者测试。
1.3 赛事排名
二、平安的思路:基于Master模型
这篇看起来结构比较清晰,所以放在第一个了。
论文地址:https://arxiv.org/pdf/2105.01848.pdf
代码位置:暂无,附上MASTER模型的github地址https://github.com/wenwenyu/MASTER-pytorch
将整个任务分为四个部分:表格结构识别、文本行检测、文本行识别、框分配。
表格结构识别基于MASTER模型,这是2021年的一篇文字识别模型;文本行检测模型采用的PSENET;文本行识别模型采用MASTER;在框分配阶段,对文本行检测模型得到的文本行以及通过表格结构识别得到的表格结构,将识别到的文字内容分配进去。
表格识别网络采用了两个分支的修改版本MASTER模型,在第一个Transformer层之后进行分支解耦。
-
第一个分支用于从图像中学习HTML序列特征,序列由下面的39个类别组合而成,采用标准的交叉熵损失函数计算LOSS。
- 第二个分支用于回归单元格位置,采用L1 LOSS回归归一化的在损失函数之前会采用Sigmoid 激活函数(这应该是作者尝试之后的优化策略)。
表格识别之后的文字检测和文字识别过程忽略不说。
在框分配阶段采用了下面三个分配原则:中心点原则、IOU最大原则以及距离最近原则。
- 中心点原则:文本行识别中心点在表格回归的单元格位置上,这样就构成一个matching pair,一根表格单元格可以有多个文本行与之对应,因为单元格的多行是常见情况。
- IOU最大原则:如果第一条中心点原则不能匹配,那么计算文本行和单元格的IOU,选择最大IOU的单元格作为匹配单元格。
- 距离最近原则:如果上述两条原则都不能满足要求,则计算文本行和所有单元格的欧氏距离。将文本框分配给具有最小欧式距离的单元格。
训练细节:
- PSENET文本行识别网络:batchsize=10;图片采用相同的大小; 数据扩充策略采用随机翻转和随机裁剪; 采用Adam优化器方法,初始学习率为0.001。
- 表格结构训练中,采用8个Tesla V100网络,batchsize为6;图像输入大小为;根据上述HTML序列预测的类别设计,大部分图片的输出序列长度不到500;异步BN(这个主要用于分布式训练)和Ranger optimizer优化器被采用。初始学习率为0.001,学习率阶段性下降。下面是表格结构识别中采用的消融测试结果,(a)展示的采用ADAM优化器和Range优化器的结果;(b)展示在原始MASTER模型的解码器之间进行concatenate,结合三个transformer layer层间特征带来的增益;(c)展示了采用异步BN带来的增益:
三、庖丁团队思路:基于Splerge表格识别网络
这个之前看过论文,思路也比较简单,所以放在第二个。
项目地址: https://github.com/CharlesWu123/SPLERGE
论文地址:https://ieeexplore.ieee.org/document/8977975
论文解读地址:https://www.jianshu.com/p/c7df3ebe3d44
该方案分成3大部分,文本检测,文字识别,表格结构识别。文本检测采用Detectors_cascade_rcnn_r50_2x 模型,识别采用 SAR_TF 模型,表格结构识别则采用SPLERGE 模型。并采用一些规则来对表格头和空白字符进行了后处理。
该方案的表格结构识别部分不是端到端的,而是由两个模型组成,split模型输入为裁切好的表格图像,输出表格的分割结构(行分割符,列分割符),merge模型输入split模型的输出结果和原始表格图,用来合并相邻的网格元素以恢复跨单元格,输出最终的表格结构。
四、基于海康威视的思路
这个看起来很高级,还没有来得及看,看了再补充。
项目代码https://github.com/hikopensource/DAVAR-Lab-OCR/tree/main/demo/table_recognition/datalist
论文解读: https://www.cnblogs.com/dan-baishucaizi/p/15540834.html