pdftools——提取PDF文本内容

因工作需要，希望快速提取pdf中的文本内容，但是又不想用pdf转换工具（容易乱码），因此搜索了R语言有没有能够实现PDF文本提取的包，发现了pdftools包用来提取pdf指定页码的text文本，分享一下！

#安装包 
install.packages("pdftools")
#加载包
library(pdftools)
pdf <- ""  #设置文件所在路径并赋值给pdf
###提取pdf中的文本内容
text<- pdf_text(pdf,  #PDF路径
         opw = "", #打开PDF文件所需密码
         upw = "") #同样是密码字符串
text <- text[2]   ###[2] 提取对应的页码
write.table(text,file = "text.txt",sep = " ")

亲测效果还不错，如果担心有乱码的话，就运行到

text<- pdf_text(pdf,  #PDF路径
         opw = "", #打开PDF文件所需密码
         upw = "") #同样是密码字符串

这一步，print一下，然后复制粘贴好了，直接导出到word我还不怎么会，有会的小伙伴留言哦！

参考:R语言提取PDF文件中的文本内容 - 云+社区 - 腾讯云 (tencent.com)

最后编辑于：2022.05.06 18:34:52

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

pdftools——提取PDF文本内容

pdftools——提取PDF文本内容

相关阅读更多精彩内容

友情链接更多精彩内容