【解决方案】PDF 里的文字复制出来是乱码的问题

本人使用打开 PDF 的软件为 Adobe Acrobat Pro DC

1. 乱码出现的原因:

PDF 中嵌入了字体,而PDF中嵌入的字体在个人的电脑字体库中不存在,因此当复制粘贴到文本编辑器中,将无法识别其编码,也就无法解码,从而产生了乱码。

2. 乱码的解决方案:

  • 方案一:下载字体

在个人电脑中,安装 PDF嵌入的相应的字体(因为嵌入的字体种类可能比较多,所以就没去实践)

  • 方案二:PDF转为图片、将图片合成PDF、再做识别文本
  1. 将原 PDF 另存为 PNG 图片,Adobe 会将 PDF 的每页都生成一张图片,因此会有很多图片
    步骤:文件 => 另存为 => 弹窗-保存类型(png 或 jpeg) => 弹窗-设置(里面可以设定图片分辨率)
  2. 使用【合并文件】工具,将之前保存的图片,全部合成一个 PDF
  3. 使用 Adobe Acrobat Pro DC 打开之前合成的 PDF,然后点击【增强扫描】工具
  4. 识别文本过程:


    Adobe Acrobat Pro DC 工具展示页

    识别文本1

    识别文本2

    识别文本3

    识别后,PDF 中的文字复制粘贴,也不会出现乱码。

3. 参考

知乎:如何解决pdf里的文字复制出来是乱码的问题?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容