PDF主要是面向展示和打印使用,并不需要文档被编辑,所以很多编辑的属性丢失了。当您需要分析或修改PDF文档数据时,您会发现PDF特别难操作。可以将PDF保存为Excel工作簿,实现轻松编辑数据的需求。PDF转Excel,技术关键就是提取原文档内的表格数据,保证转换前后数据的一致性,方便复制粘贴及可轻松编辑。本文将介绍如何使用 Spire.PDF for Python 在 Python 中实现PDF转 Excel。
安装 Spire.PDF for Python
本教程需要用到 Spire.PDF for Python。可通过以下 pip 命令将它们轻松安装到 VS Code 中。
pip install Spire.PDF
Spire.PDF for Python 提供的 PdfDocument.SaveToFile() 方法能将 PDF 文件保存为 Excel 格式。以下是如何使用 Spire.PDF for Python 将 PDF 文档转换为 Excel XLSX 格式并指定转换选项的具体步骤:
- 创建一个 PdfDocument 对象
- 使用 PdfDocument.LoadFromFile() 方法加载 PDF 文档。
- 创建一个 XlsxLineLayoutOptions 对象,并将相应的参数传递给 XlsxLineLayoutOptions 类的构造函数,以指定转换选项。
- 使用 PdfDocument.ConvertOptions.SetPdfToXlsxOptions() 方法应用转换选项。
- 使用 PdfDocument.SaveToFile() 方法将 PDF 文档保存为 Excel XLSX 格式。
from spire.pdf.common import *
from spire.pdf import *
# 创建PdfDocument对象
pdf = PdfDocument()
# 加载PDF文档
pdf.LoadFromFile("Sample.pdf")
# 创建 XlsxLineLayoutOptions 对象来指定转换选项
# 参数: convertToMultipleSheet, rotatedText, splitCell, wrapText, overlapText
convertOptions = XlsxLineLayoutOptions(True, True, False, True, False)
# 设置转换选项
pdf.ConvertOptions.SetPdfToXlsxOptions(convertOptions)
# 将PDF文档保存为Excel XLSX格式
pdf.SaveToFile("PdftoExcel.xlsx", FileFormat.XLSX)
pdf.Close()
将 PDF保存为Excel后,转换后可以轻松提取文档里面的数据。效果图如下
除了将PDF保存为Excel, Spire.PDF for python组件还支持将PDF 存为OFD, PDF文档转换为Word, 将PDF另存为图片,如PDF to PNG, JPG,BMP等。