简单的python脚本批量提取pdf文件首页

第一步

  • 安装python,自己windows系统的电脑直接安装Anaconda3即可

第二步

  • 安装 PyPDF2 模块
  • 安装好Anaconda3后直接在DOS窗口下使用命令easy_install PyPDF2 即可安装
    42.PNG

第三步

  • 处理pdf文件
  • 将要处理的pdf文件放到同一个文件夹下,将文件夹命名为paper_download,然后将脚本和这个文件夹放到同一个文件夹下在dos窗口下运行即可,输出文件存放在paper_first_page文件夹下
import os
from PyPDF2 import PdfFileReader, PdfFileWriter

os.mkdir("paper_first_page")
for file in os.listdir("./paper_download"):
    fr = open("./paper_download/" + file,"rb")
    pdfReader = PdfFileReader(fr)
    if pdfReader.isEncrypted:
        pdfReader.decrypt('')
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))
    else:
        first_page = pdfReader.getPage(0)
        pdfWriter = PdfFileWriter()
        pdfWriter.addPage(first_page)
        pdfWriter.write(open("./paper_first_page/" + file,"wb"))

处理文件时遇到报错,Multiple definitions in dictionary at byte 0x2db6b for key /MediaBox;按照参考文献3的方法解决

参考文献

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容