判断pdf中跨页的两个表格是否应该合并的思路

一、判断前表格和后表格是否为跨页的表格

1.基于两张表格的明显特征用来快速过滤不可能是跨页的表格

(1) 前后两页的页面方向不一致,一页的方向是纵向,一页的方向是横向;
(2) 前后两张表格在同一页面内不是跨页表格;
(3) 跨页的前表格只可能是前页面的最后一个表格,同理,跨页的后表格只可能是后页面的第一个表格;
(4) 两张表格的表格类型必须是一样的,必须同为有线表格或同为无线表格;
(5) 前后两表必须在合理的位置,如前一张表格的底部位置要在页面的下方,如移除页眉页脚的有内容区域作为页面的有效区域,前一表格的底部位置应该在前一页面有效区域的下方20%的区域内,后一表格的顶部位置应该站在后一页面有效区域的上方40%的区域内;
(6) 判断前一表格的底部是否还有除注释和页脚外的内容,或者判断后一表格的顶部是否有页眉外的内容,如果存在则两表格不是跨页表格。

2.综合表格属性判断表格是否是跨页表格

如果满足1中的所有条件,则两格表格的特征属性根据重要程度进行加权,记为wi,设定一个可以合并的阈值,记为,则判断两表格为跨页表格,必须满足以下公式:


在这里插入图片描述

权重判断标准如下:
(1)如果两个表格中其中存在一个或以上,则权重记为0.3;
(2)如果两表格的列数相同,则权重记为0.6;
(3)如果两表格的宽度相同,则权重记为0.6;
(4)如果两表格前表最后一行和后表第一行,纯文字单元格、数字单元格对应,则权重记为0.6;
(5)如果两表格有相同的表头,则权重记为0.8;
(6)如果后一表格不存在表头,则权重记为0.5;
(7)如果前后表格对应的前后不存在内容,则权重记为0.5。
计算满足以上公式,则两表格为跨页表格。

二、判断后表格的第一行中是否存在跨页的单元格

1. 识别跨页表格的重复表头

找出前后表格具有相同文本的前几行,这些行视为相同的表头,对后一表格的表头行做上标记;

2. 判断的两行单元格数量是否相同

  • 如果数量不一样一般不会合并

3. 基于行内单元格特征判断跨页单元格

  • 基于明显的特征过滤
    1. 如果前后两行的第一列都是带序号的文字,则判断为否;
    2. 如果前行单元格对应的后行单元格同为带小数点的数字,则判断为否;
    3. 如果上一行单元格内区域无内容,下一行对应的单元格内有内容,则判断为否;
  • 综合单元格特征判断
    1. 标点特征:如“)”前一定会有“(”,以及“,”一定是话没有说完;
    2. 语意特征:基于LSTM训练一个二分类模型,判断两个短语是否应该合并,模型训练方法见后文。

如果以上判断正确,则将后一行的单元格合并进入前一行中。

三、表格合并后的列对齐

如果前后跨页表格的列数相同,则直接将后一表格去除重复表头后,与前一表格相接。如果前后表格列数不相同,则要将前后表的列进行对齐。

  1. 将所有的单元格左右边界进行统计,计算出合并表格中的所有列的左右范围,这里需要设定一个阈值,如果列的左右范围小于阈值,则将该列舍去;
  2. 计算表格内所有单元格与这些列的相交数量,根据相交数量确定每个单元格的行列信息。

基于LSTM训练的语意二分类模型

该模型主要作用是,判断跨页表格prevTable的最后一行,nextTable的第一行中对应的单元格是否应该合并,输出为二分类输出。
网络结构很简单,这里要说明一下的是样本的问题。

因为人力有限,样本标注其实也不用怎么样人工去标。方法是自己构造。

  1. 取某一单元格内的文本,从中间切开分为二,str1和str2即为正样本,负样本可以取不同单元格内的str1和str2,str1和str2中间加入特殊标签做embedding。
  2. 构造大概400万的样本,正负样本比为1:1.5。
  3. 对于英文、数字、非unicode码定为UNO。因为数字和英文很难去判断是否是完整的。
  4. 对于str1和str2长度不足补<EMPTY>。后面运行feed时,注意split相应的文本长度。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,490评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,581评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,830评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,957评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,974评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,754评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,464评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,357评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,847评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,995评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,137评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,819评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,482评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,023评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,149评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,409评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,086评论 2 355

推荐阅读更多精彩内容