使用python去除pdf水印

以下方法主要是处理在页眉页脚处的水印,其他情况未测试。
安装pypdf2

pip install pypdf2

主要步骤:
1.读取pdf文件;
2.遍历pdf文件;
3.分析文件结构,找到水印图片,删除;页面元素不会太多,多试两次就能找到对应元素;
4.输出到新文件;

from PyPDF2 import PdfFileReader,PdfFileWriter

output = PdfFileWriter()
with open("XXXX/xxxx.pdf",'rb') as pf:
    pin = PdfFileReader(pf)
    for i in range(pin.getNumPages()):       
        page = pin.getPage(i)
        page['/Resources']['/XObject']['/QQAPXO65685fd8'].clear()
        page['/Resources']['/XObject']['/QQAPXO49127425'].clear()    
        output.addPage(page)
    with open("XXXX/out.pdf",'wb') as ouf:
        output.write(ouf)

page['/Resources']即为页面结构,分析结构,找出其中需要删除的元素即可。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容