基于百度云免费接口实现“让机器朗读影印版PDF”功能的思路

今天实现了“让机器朗读影印版PDF”的功能。

有技术含量的地方用的都是开源库或百度云免费接口——我的工作只是把它们粘合起来。


简单说是三步

1.PDF转图片们

2.逐个图片识别成文字,然后合并成整个文本

3.文本逐段生成MP3,然后合并成整个MP3


第一步,PDF转图片

Java语言的icepdf库和pdffox库都能实现这一目的,其他语言也有相应的库。

-->这一步的输入:PDF文件

-->这一步可以输出:图片文件夹


第二步,图片识别成文字

使用百度云提供的文字识别接口,逐张图片识别,最后合并成整个文本。

-->这一步的输入:图片文件夹

-->这一步可以输出:TXT文件


第三步,文字生成MP3

使用百度云提供的语音合成接口,因为接口有1024字节限制,所以要把整个文本切成小段,生成N个MP3文件,再合并成整个MP3。

-->这一步的输入:TXT文件

-->这一步可以输出:MP3文件


至此影印版的PDF就转换成为可以听的MP3文件了。

顺便还可以用百度云提供的自然语言接口获得文章分类、文章标签等信息。


OCR识别准确度毕竟有限,可以考虑把识别出的TXT进行手工校订。

当然,你也可以把图片或TXT作为输入源。

输入图片则逻辑从第二步开始,输入TXT则逻辑直接执行第三步。


毕竟影印版PDF常涉及版权问题,建议没别的办法时才用这方案。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,245评论 4 61
  • 我特么就是牛逼哄哄,可……为什么还是有点心塞。 只身一个人拉着行李箱大包小包的来了这里,现在又自己风尘仆仆的坐在火...
    L勤劳阅读 570评论 0 5
  • 姓名:巴桂成 公司:宁波大发化纤有限公司 宁波盛和塾《六项精进》235期学员 【日精进打卡第141天】 【知~学习...
    巴桂成_c6dd阅读 115评论 0 0
  • 没有命题,即无题,自由发挥;想说什么就就写什么,也就是碎碎念。其实我的大脑一片空白,没有什么想法,沮丧消极的心态,...
    独孤因果阅读 282评论 0 0