简单的python脚本批量提取pdf文件首页

第一步

安装python，自己windows系统的电脑直接安装Anaconda3即可

第二步

安装 PyPDF2 模块
安装好Anaconda3后直接在DOS窗口下使用命令easy_install PyPDF2 即可安装

42.PNG

第三步

处理pdf文件
将要处理的pdf文件放到同一个文件夹下，将文件夹命名为paper_download，然后将脚本和这个文件夹放到同一个文件夹下在dos窗口下运行即可，输出文件存放在paper_first_page文件夹下

import os
from PyPDF2 import PdfFileReader, PdfFileWriter

os.mkdir("paper_first_page")
for file in os.listdir("./paper_download"):
    fr = open("./paper_download/" + file,"rb")
    pdfReader = PdfFileReader(fr)
    if pdfReader.isEncrypted:
        pdfReader.decrypt('')
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))
    else:
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))

处理文件时遇到报错，Multiple definitions in dictionary at byte 0x2db6b for key /MediaBox；按照参考文献3的方法解决

参考文献

1、Python处理pdf文件库 - PyPDF2详解https://www.pythontab.com/html/2017/pythonhexinbiancheng_1128/1190.html
2、"file has not been decrypted" error #51 https://github.com/mstamy2/PyPDF2/issues/51
3、Python解析PDF三法 http://www.cnblogs.com/waltersgarden/p/6626481.html

最后编辑于：2018.10.31 17:35:15

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

简单的python脚本批量提取pdf文件首页

简单的python脚本批量提取pdf文件首页

第一步

第二步

第三步

参考文献

相关阅读更多精彩内容

友情链接更多精彩内容