提取PDF文件中的表格

# BiocManager::install("tabulizer")
library(tabulizer)
# I create a dummy list to iterate through all the pages and push a data.frame in
result <- list()
for (i in 1:3){
  result[[i]] <- as.data.frame(extract_tables("C:/Users/Dong/Downloads/Documents/Extracted pages from Draper - 1998 - OARDC_special_circular_n157.pdf", page = i, method = 'stream'), stringsAsFactors = FALSE)
}
# df=rbind(result[[1]],result[[2]])
# df=result[[2]]
write.csv(result[[3]], file = "D:/0.csv")

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Python骚操作，提取pdf文件中的表格数据！
在实际研究中，我们经常需要获取大量数据，而这些数据很大一部分以pdf表格的形式呈现，如公司年报、发行上市公告等。面...
诸葛青云999阅读 15,211评论 0赞 16
web界面从PDF文件提取表格数据
Excalibur: A web interface to extract tabular data from P...
爱冲浪的小鱼儿阅读 321评论 0赞 0

从PDF文件中提取表格
首先这个PDF文件是能复制而非图片转换的。可以用PDF转word软件比如foxit phantom可以自动识别表格...
董八七阅读 7,007评论 4赞 1
张艺谋要在电影院开“画展”，预告片孙俪都是戏，关晓彤可期待！
今天青石的票圈出镜率最高的，莫过于张艺谋的新片终于定档了。一张满溢着水墨风的海报一次次的出现在票圈里，也就是老谋...
青石电影阅读 10,677评论 1赞 2
2018-07-18
今天主要学习了flex布局，学习笔记如下： 1.指定flex布局： display：flex(任意容器)...
riku_lu阅读 3,346评论 2赞 3

友情链接更多精彩内容

2赞3赞

赞赏

手机看全文