PDF中批量数据的提取与处理

1.    背景

在当下的大数据时代中,各行各业都同时面临大数据所带来的数据规模大和数据来源繁多的机遇与挑战。如何更好的获取数据、处理数据和合并数据对于提高工作效率是至关重要的。

PDF是非常常见的数据来源,尤其见于公司的各种报告和报表中。将PDF中的数据提取出来并做相应的整合在通常情况下我们只能借助IT人员的帮助,编写复杂的代码或者使用数据提取软件在多个平台上重复操作。这些方法增加了时间成本和人工成本,使数据获取和准备工作变得繁琐无趣让人厌烦。那么有没有一种工具无需任何编码可以同时解决PDF数据获取和整合,以及数据处理和操作,最后直接导出这些工作呢?

今天我就为大家介绍一款快30年历史的专业数据准备软件Altair Monarch Data Prep Studio(以下简称为Altair Monarch)。

本篇文章主要讲解如何利用Altair Monarch数据准备工具快速准确的提取非结构化PDF数据,并根据关键词合并多页PDF内容。从而提高数据准确性,让数据工作变得轻松快乐。


2.   Altair Monarch功能介绍

Altair Monarch是一款用于数据准备的软件,其可从任何来源的数据中快速,简单地提取需要的数据,包括将非结构化数据,如PDF、文本、网页等,转化为行与列的结构化数据,提取数据后,用户可以在无需编码基于鼠标点击的方法下进行数据的清理、转换、合并、去重等工作,并且可以导出到任何的数据分析平台或者BI工具进行进一步的操作。

Altair Monarch主要有以下功能:

第一,  Altair Monarch 目前内置的48个数据连接口可以从几乎任何数据来源中快速、简单的提取需要的数据,主要包括:

•           直接导入结构化数据表,如Excel等;

•           将非结构化数据,如PDF、文本、网页等,转化为行与列的标准结构数据;

•           从关系型和非关系型数据库中导入数据表,如SQL、Hadoop等;

•           从第三方软件中导入数据,如Salesforce、SAP等;

数据连接口的多样性使数据录入工作变得方便快捷、对IT人才的依赖大大降低、同时减少人工成本,使业务人员不必为了收集数据的事情浪费时间。


第二,  Altair Monarch提供多种数据处理功能,无需任何编码,鼠标点击即可完成。

主要的操作功能列表:

•           数据处理,如缺失值填充、单元值拆分、自定义计算函数等;

•           数据表转换,如多列排序、透视表、分组汇总、去重等;

•           数据表合并,如内连接、左/右连接、多表格附加等;

•           数据多字符列汇总分析等;

由于软件无编码要求,任何人都可以短时间内快速上手。同时更突出的优势在于所有的操作都可保存下来,重复使用


第三,  Altair Monarch 可将处理后的标准化数据导出,衔接其他常用的数据和可视化软件。


3.抓取和合并多页PDF数据并进行数据处理和汇总的具体案例-以报账单为例

企业员工每月报账单,包含细节内容都按照统一的模板保存在PDF文件中,财务人员希望能够把每个员工的报账单收集起来,并与其工资单和个人信息整理到同一个文件中,这样就能自动地把报账金额加入到下一次的工资发放中,同时,财务人员对报账单内容进行统计分析,了解公司的财务和业务情况。

假如我们现在有如下PDF报账单(图一),要将其中关键内容提出,整理成如图二所示Excel中标准结构数据。主要分为以下步骤:


PDF格式的报账单样本


利用Monarch提取形成的行与列表格

 

Altair Monarch解决方案:

Ø  打开Altair Monarch软件,打开后主页面如下,点击OPEN DATA并选择PDF&TEXT,双击其中的PDF Report。选择PDF数据来源,导入数据。



 

Ø  自动或手动抓取数据和合并字段

在打开后的PDF报告界面中,有两种方法抓取和合并数据与字段:

(1)    自动:在左边模板(Templates)中点击自动定义(Auto Define),软件将自动识别关键词,多数情况下自动识别可以满足我们的需求。

(2)    手动:若需要手动定义模板,则在页面的捕捉内容框中输入对应的关键词就可以快速抓取PDF每页的对应信息并合并。

下图是进行PDF数据信息提取的界面,可以看出,我们在设置好提取规则后,数据很整齐的出现在界面的右下方。


Ø  数据处理和转换

完成上述数据提取后,可加载以行列标准化呈现的数据于数据准备(PREPARE) 界面中。该界面包含了大量关于数值的操作,并提供数据表和改变历史的追踪,使每一步都清晰可查。也可以点击数据转换 (TRANSFORM) 对其进行数据转置、分组等。



 

Ø  数据表合并和附加

点击数据表合并 (COMBINE) 可以选择数据表的合并方式为左右连接或上下附加,通过简单的表格拖拉即可完成多表的合并。

Ø  数据表导出



通过Altair Monarch数据准备软件,可以轻松解决PDF等非结构化数据的提取问题,并完美覆盖几乎全部的数据处理和导出步骤,让杂乱无序的数据发挥应有的价值!


4.写在后面

关于数据处理这一块大家还对什么内容感兴趣,欢迎在文后留言与我交流,也欢迎大家提出意见和建议。同时大家可以通过以下方式关注我们,申请免费试用软件。


自 2018 年底进入中国市场以来,Altair 数据分析软件平台Altair Knowledge Works (前身为 Datawatch)一直致力于为用户提供易于访问和使用的数据平台,助力用户做出更创新、更明智的决策和洞见。

为了更好地服务国内的客户,AltairKnowledge Works  的微信专区上线啦!我们将通过微信向各位用户提供更迅速的响应和更便捷的服务。

每周我们将为大家发布Knowledge Works的最新信息、市场活动、用户案例、视频教程资料等。同时,各位用户还可以通过公众号与Altair 进行互动交流并获得官方技术支持。试用申请链接也可以在公众号中找到。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,589评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,615评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,933评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,976评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,999评论 6 393
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,775评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,474评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,359评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,854评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,007评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,146评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,826评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,484评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,029评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,153评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,420评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,107评论 2 356

推荐阅读更多精彩内容