python处理pdf文件

pdftotext -layout '/home/pengfei/桌面/51.pdf'

tabula库

例子

import tabula

# Read pdf into DataFrame
df = tabula.read_pdf("test.pdf", options)

# Read remote pdf into DataFrame
df2 = tabula.read_pdf("https://github.com/tabulapdf/tabula-java/raw/master/src/test/resources/technology/tabula/arabic.pdf")

# convert PDF into CSV
tabula.convert_into("test.pdf", "output.csv", output_format="csv")

# convert all PDFs in a directory
tabula.convert_into_by_batch("input_directory", output_format='csv')

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

python处理pdf文件
emded 标签 pre标签爬虫爬取pdf文档：下载 pdfminer3k安装 python setup.p...
梦归游子意阅读 5,319评论 0赞 0
dll和so文件区别与构成
动态链接，在可执行文件装载时或运行时，由操作系统的装载程序加载库。大多数操作系统将解析外部引用（比如库）作为加载过...
小5筒阅读 10,872评论 0赞 3

关于Mongodb的全面总结
关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
中v中阅读 32,124评论 2赞 89
python——文件读写与异常处理
文件在实际开发中，常常需要对程序中的数据进行持久化操作，而实现数据持久化最直接简单的方式就是将数据保存到文件中。...
Jason_c8d4阅读 10,914评论 1赞 0
最美的因果
文.孙亮世間最美的因和果是相識並無錯過你曾說你會在江南等我数十載後我來赴約夢無陰晴圓缺愛無放肆蹉跎曾...
朦胧诗人孙亮阅读 1,950评论 2赞 2

赞1赞

赞赏

手机看全文