如何用Python从PDF文件中提取文本词汇

在日常工作中,有时可能需要解析一些 PDF 文件,提取文件中的关键词,好让它们能够被我们搜索。解决这个问题的重要部分就是找到如何从 PDF 文件中提取文本数据的方法。从如果是几张或者几十张倒还好办,那要是几百几千张,可能就有点麻烦了。

Python学习资料或者需要代码、视频加Python学习群:960410445

幸好我们可以用 Python 完成这项工作。下面就分享一下如何用 Python 解析一个PDF文件,将其转为一列关键字。

设置:

本教程我们使用的是 Python 3.6.3,当然在实际工作中你可以使用任何你喜欢的 Python 版本,只要它支持用到的库就行。

需要安装以下 Python 库:

PyPDF2(用于将简单的基于文本的 PDF 文件转为 Python 可读的文本)

Textract(用于将 PDF 扫描文件转为 Python 可读的文本)

Nltk(用于清理短语、将短语转为关键字)

可以通过以下命令行安装这些库:

pip install PyPDF2

pip install textract

pip install nltk

这样我们就安装了解析 PDF 文件所需的库,一定要确保你的 PDF 文件放在你编写脚本所在的文件夹中。

启动编辑器,开始敲代码吧!

第一步:导入库

第2步:读取 PDF 文件

第3步:将文本转换为关键字

现在我们就将手中的 PDF 文件保存为了列表,可以按自己的需要使用了。如果想让 PDF 可搜索,或者解析大量文件进行聚类分析,还可以将得到的列表保存在电子表格中。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 自然语言处理教程 原文:Natural Language Process 译者:飞龙 协议:CC BY-NC-SA...
    布客飞龙阅读 33,044评论 6 68
  • 常用库: fuzzywuzzy,字符串模糊匹配。 esmre,正则表达式的加速器。 Chardet字符编码探测器,...
    AlastairYuan阅读 2,309评论 0 43
  • 绝地求生是最近最火的一个游戏,甚至超过了王者荣耀,(时间较短,暂时还没有)里面是你控制一个人跳伞,跳到那个地方,能...
    崔禹喆阅读 136评论 0 1
  • OC的理解与特性OC作为一门面向对象的语言,自然具有面向对象的语言特性:封装、继承、多态。它既具有静态语言的特性(...
    LIANMING_LI阅读 536评论 0 0
  • 原理分析见《利用动态加载技术加固APK原理解析》 源代码地址:https://github.com/mars-ma...
    Mars_M阅读 1,849评论 0 2