2019-07-30

'''
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LAParams
from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

获取文档对象

fp = open("2017年天津高考成绩体育类综合分分数段情况.pdf","rb")

创建一个与文档关联的解释器

parser = PDFParser(fp)

PDF文档的对象

doc=PDFDocument()

链接解释器和文档对象

parser.set_document(doc)
doc.set_parser(parser)

初始化文档

doc.initialize("")

创建PDF资源管理器

resource =PDFResourceManager()

参数分析器

laparam = LAParams()

创建一个聚合器

device =PDFPageAggregator(resource,laparams=laparam)

创建PDF页面解释器

interpreter =PDFPageInterpreter(resource,device)

使用文档对象得到页面的集合

for page in doc.get_pages():

#使用页面解释器来读取
interpreter.process_page(page)

#使用聚合器来获得内容
layout =device.get_result()

for out in layout:
    if hasattr(out,"get_text"):

        print(out.get_text())

'''

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • iframe有那些缺点 缺点: iframe会阻塞主页面的Onload事件;搜索引擎的检索程序无法解读这种页面,不...
    张机智_0fe3阅读 1,616评论 0 0
  • Mybatis进阶总结 一·、#{}和${}的区别是什么? 1. #将传入的数据都当成一个字符串,会对自动传入的数...
    lipingLi_2019阅读 1,517评论 0 0
  • HTML 1、你是如何理解web语义化的? Web语义化是指使用恰当语义的html标签、class类名等内容,让页...
    苹果咏阅读 3,841评论 0 0
  • KINDLE青春版到底值不值得买 目前市场上阅读器的种类越来越多,KINDLE作为阅读器的老品牌,一直是销量王。...
    wendyonly1阅读 3,318评论 0 1
  • 天河路四季同达生态园一个久负盛名的园林式酒店。它的辉煌是过去的岁月,如今外形仍庞大,经营怎样呢? 进去瞧一瞧,风光...
    悦悦_1367阅读 1,346评论 0 0

友情链接更多精彩内容