python处理pdf文件

pdftotext -layout '/home/pengfei/桌面/51.pdf'

tabula库

例子

import tabula

# Read pdf into DataFrame
df = tabula.read_pdf("test.pdf", options)

# Read remote pdf into DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# convert PDF into CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

# convert all PDFs in a directory
tabula.convert_into_by_batch("input_directory", output_format='csv')
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • emded 标签 pre标签 爬虫爬取pdf文档:下载 pdfminer3k安装 python setup.p...
    梦归游子意阅读 5,319评论 0 0
  • 动态链接,在可执行文件装载时或运行时,由操作系统的装载程序加载库。大多数操作系统将解析外部引用(比如库)作为加载过...
    小5筒阅读 10,872评论 0 3
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,124评论 2 89
  • 文件 在实际开发中,常常需要对程序中的数据进行持久化操作,而实现数据持久化最直接简单的方式就是将数据保存到文件中。...
    Jason_c8d4阅读 10,914评论 1 0
  • 文.孙亮 世間最美的因和果 是相識並無錯過 你曾說你會在江南等我 数十載後我來赴約 夢無陰晴圓缺 愛無放肆蹉跎 曾...
    朦胧诗人孙亮阅读 1,950评论 2 2