pdftools——提取PDF文本内容

因工作需要,希望快速提取pdf中的文本内容,但是又不想用pdf转换工具(容易乱码),因此搜索了R语言有没有能够实现PDF文本提取的包,发现了pdftools包用来提取pdf指定页码的text文本,分享一下!

#安装包 
install.packages("pdftools")
#加载包
library(pdftools)
pdf <- ""  #设置文件所在路径并赋值给pdf
###提取pdf中的文本内容
text<- pdf_text(pdf,  #PDF路径
         opw = "", #打开PDF文件所需密码
         upw = "") #同样是密码字符串
text <- text[2]   ###[2] 提取对应的页码
write.table(text,file = "text.txt",sep = " ")

亲测效果还不错,如果担心有乱码的话,就运行到

text<- pdf_text(pdf,  #PDF路径
         opw = "", #打开PDF文件所需密码
         upw = "") #同样是密码字符串

这一步,print一下,然后复制粘贴好了,直接导出到word我还不怎么会,有会的小伙伴留言哦!

参考:R语言提取PDF文件中的文本内容 - 云+社区 - 腾讯云 (tencent.com)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容