python1--PDF转化成txt

很多文献都是PDF的格式，特别是很多文献附有表格，要是能够直接抓取就好了，正好python有一个pdfplumber包，可以解析PDF格式文件

#!/usr/bin/env python
#pip install pdfplumber 非标准库包，要安装
#usages: python PDF2txt.py input_pdf_file output_txt_file

import pdfplumber
import sys

pdf_file = sys.argv[1]
pdf = pdfplumber.open(pdf_file)
filename = sys.argv[2]
with open(filename,'w+') as file_object:
    for page in pdf.pages:
    # 获取当前页面的全部文本信息，包括表格中的文字
        file_object.write(page.extract_text())
        file_object.write('\n')

pdf.close()

解析出来得文本还是比较乱的，等下次结合例子再优化

最后编辑于：2022.01.11 13:54:37

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

python1--PDF转化成txt

友情链接更多精彩内容