扫描版PDF文档转文本方法

很多pdf文档是扫描版的,也就是图片,无法提取文字,使用很不方便。通过结合以下两个利器可以很方便的把pdf转为文本。

1. 把pdf文档转为多张图片

可以通过XpdfReader工具把pdf文档转为一组图片。
假设要把1.pdf转为一组jpg图片,放到test目录下。可以使用以下命令:

pdfimages -j 1.pdf test

下载地址:https://www.xpdfreader.com/download.html

2. 通过OCR识别图片中的文字

使用谷歌的OCR识别工具tesseract把文字提取出来。
把图片1.jpg转为文字保存在1.txt中,可以使用以下命令:

tesseract 1.jpg 1.txt -l chi_sim

后面的参数-l chi_sim表示要转换的文字是中文。

如果想一次转换很多张图片,可以把要转换的图片文件路径写入到一个文本文件中,比如in.txt

1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg

使用以下命令一次性全部转换保存到out.txt中:

tesseract in.txt out.txt -l chi_sim

下载地址:https://github.com/tesseract-ocr/tesseract

搞定,收工,如有疑问或建议欢迎留言讨论。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容