Camelot识别pdf表格时的参数设置补充

题图引自https://gtgraphics.de/en/wallpapers/camelot/

利用Camelot识别pdf文件中的表格,除了必须加上flavor = 'stream' ,以及指定 table_areas识别区域之外,补充下在识别pdf表格时遇到的如多行数据、上下标等情况时的参数设置。
Camelot的安装及基本用法见Python解析PDF表格——PDFPlumber vs Camelot

'pages'指定识别的页码

世卫组织2020-3-18数据

世卫组织报告中的表格位于第3-6页(如下图),指定识别的页码用'pages'参数。
默认参数设置识别效果

增大'edge_tol'自动扩大识别区域

默认参数下,Camelot未能识别出全部的表格区域。如上图,第3页只识别出了15行,远小于表格所在页的行数。
除了在Python解析PDF表格——PDFPlumber vs Camelot介绍的用camelot.plot()命令查看表格所在区域然后再指定table_areas来处理外,也可以将'edge_tol'参数指定为一个较大的数字,如本例中将edge_tol = 500,让Camelot自动扩大识别区域。

camelot.plot(tables[0], kind='contour')
table_areas=['1,680,600,1']
增大'edge_tol'后识别区域扩大

'row_tol'识别包含多行文字的表格行

单元格中有多行数据

本例中,表头和个别数据条,单元格中包含了多行文本,有可能需要将多行文字自动合并,此时涉及到'row_tel'参数的调整。将该参数数值增大,Camelot会自动将多行文字合并,但这样也有可能带来意想不到的结果。


默认设置时的识别结果

row_tol = 40 多行文字自动合并

如上图,指定row_tol = 40虽然表头部分的多行文字被自动合并为了一行,合并后的文字用'\n'连接;但下面的数据条部分,也被Camelot给合并到了一起,这显然不是我们希望看到的结果。所以对于'row_tol'参数一定是要视情况灵活处理,也提醒我们在识别表格时需要随时检查中间结果是否识别正确。

不指定row_tol 时的识别结果

row_tol = 12时的识别结果

本例中一些国家名称文字较长,如伊朗在表格中为Iran (Islamic Republic of),被分作两行。默认设置下,数据所在单元格和国家名称一共被识别为3行;而适当加大row_tol后(将'row_tol'指定为12),识别的结果数据所在单元格自动向上融合到了国家名称所在列的第一行。这样更便于在后续处理时中修正国家名称。

'flag_size'是否识别上(下)标文字

当单元格中存在上标时,指定'flage_size = True',Camelot会在上标下标中自动加上<s> </s>标签,如下图所示。


'flag_size'为识别的上(下)标文字加标识

'split_text'分割字符串

'flage_size参数用于指定是否分割识别的字符串,如下图,'flage_size = True'时,表格外的字符串被分割后分到了各列。在本例中,这种自动分割的结果看起来并不是必须的,因为我们感兴趣的是表格内的数据部分,表格以外的文字本就会舍去。

'split_text'分割字符串

'strip_text'自动替换文字

'strip_text参数用于指定是否分割识别的字符串,如下图,strip_text= '†‡§\n(<>)(</).'*,Camelot会在识别出文字后,自动删去类似上下标标准'<s>'、'</s>',跨行单元格的'\n'等等。

'strip_text'自动替换文字

pandas.to_numeric转化识别结果转换为数字型

Camelot识别后结果,各国的疫情数据是个字符串而不是数字,因此还需要利用pandas.to_numeric,或是astype(int)将数据类型转换为数字型。


astype(int)将数据类型转换为数字型

本例中上述参数设置如下。

table_p3 = camelot.read_pdf(r'./20200318-sitrep-58-covid-19.pdf', flavor='stream',
                         pages='3', flag_size=True, row_tol=10, table_areas=['1,680,600,1'],#edge_tol=500, 
                         split_text=False, strip_text='*†‡§\n(<>)(</).')

最后用Pyecharts绘制地图,结果如下:

2020-3-18中国以外的疫情数据

结论

  • 对于有文字和表格混合排版的页面,建议采用指定table_areas指定表格识别区域,而不是增大edge_tol,来处理。
  • row_tol的设置需要根据待识别表格的情况灵活选择,除非确有必要,不建议将该参数设置为过大的数数值。
  • 当单元格中有上下标时,指定**flage_size = True **更为稳妥,否则有可能将类似1.23^2 误做 1.232,造成数据不准确。
  • split_textstrip_text根据表格的具体情况设定。
  • 随时检查中间结果!随时检查中间结果!随时检查中间结果!
参考资料
  1. WHO: Coronavirus disease 2019 Situation report - 58
  2. Camelot: PDF Table Extraction for Humans
  3. Python解析PDF表格——PDFPlumber vs Camelot
  4. 用Pyecharts绘制世界地图的避坑经历
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容