扫描版PDF文档转文本方法

很多pdf文档是扫描版的，也就是图片，无法提取文字，使用很不方便。通过结合以下两个利器可以很方便的把pdf转为文本。

可以通过XpdfReader工具把pdf文档转为一组图片。
假设要把1.pdf转为一组jpg图片，放到test目录下。可以使用以下命令：

pdfimages -j 1.pdf test

使用谷歌的OCR识别工具tesseract把文字提取出来。
把图片1.jpg转为文字保存在1.txt中，可以使用以下命令：

tesseract 1.jpg 1.txt -l chi_sim

后面的参数-l chi_sim表示要转换的文字是中文。

如果想一次转换很多张图片，可以把要转换的图片文件路径写入到一个文本文件中，比如in.txt：

1.jpg
2.jpg
3.jpg
4.jpg
5.jpg
6.jpg

使用以下命令一次性全部转换保存到out.txt中：

tesseract in.txt out.txt -l chi_sim

搞定，收工，如有疑问或建议欢迎留言讨论。

最后编辑于：2019.02.02 15:12:30

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。