第一步
- 安装python,自己windows系统的电脑直接安装Anaconda3即可
第二步
- 安装 PyPDF2 模块
-
安装好Anaconda3后直接在DOS窗口下使用命令easy_install PyPDF2 即可安装
第三步
- 处理pdf文件
- 将要处理的pdf文件放到同一个文件夹下,将文件夹命名为paper_download,然后将脚本和这个文件夹放到同一个文件夹下在dos窗口下运行即可,输出文件存放在paper_first_page文件夹下
import os
from PyPDF2 import PdfFileReader, PdfFileWriter
os.mkdir("paper_first_page")
for file in os.listdir("./paper_download"):
fr = open("./paper_download/" + file,"rb")
pdfReader = PdfFileReader(fr)
if pdfReader.isEncrypted:
pdfReader.decrypt('')
first_page = pdfReader.getPage(0)
pdfWriter = PdfFileWriter()
pdfWriter.addPage(first_page)
pdfWriter.write(open("./paper_first_page/" + file,"wb"))
else:
first_page = pdfReader.getPage(0)
pdfWriter = PdfFileWriter()
pdfWriter.addPage(first_page)
pdfWriter.write(open("./paper_first_page/" + file,"wb"))
处理文件时遇到报错,Multiple definitions in dictionary at byte 0x2db6b for key /MediaBox;按照参考文献3的方法解决
参考文献
- 1、Python处理pdf文件库 - PyPDF2详解https://www.pythontab.com/html/2017/pythonhexinbiancheng_1128/1190.html
- 2、"file has not been decrypted" error #51 https://github.com/mstamy2/PyPDF2/issues/51
- 3、Python解析PDF三法 http://www.cnblogs.com/waltersgarden/p/6626481.html