很多文献都是PDF的格式,特别是很多文献附有表格,要是能够直接抓取就好了,正好python有一个pdfplumber包,可以解析PDF格式文件
#!/usr/bin/env python
#pip install pdfplumber 非标准库包,要安装
#usages: python PDF2txt.py input_pdf_file output_txt_file
import pdfplumber
import sys
pdf_file = sys.argv[1]
pdf = pdfplumber.open(pdf_file)
filename = sys.argv[2]
with open(filename,'w+') as file_object:
for page in pdf.pages:
# 获取当前页面的全部文本信息,包括表格中的文字
file_object.write(page.extract_text())
file_object.write('\n')
pdf.close()
解析出来得文本还是比较乱的,等下次结合例子再优化