最近学习《信息系统项目管理师教程》相关课程有一段时间了,最近开始做题练习了,有时候遇到一些题目答案没有解析,书太厚,也不知道是在哪儿讲到的,所以我就想把扫描版的电子书转识别成文字,使用pdf的搜索功能快速定位到具体的知识点上。之前一直用的是“Adobe Acrobat DC”这个软件把PDF转识别成文字,但是手头的扫描电子版书籍有点模糊,好多识别不出来,有的一页只能识别出一半内容的,实在是影响搜索结果。
我的思路是:
(1)晚上搜索清晰的电子版;
主要是在CSDN上搜索,搜到很多扫描版,但是都是一个结果,下载了好多个版本,也花了好多积分。后来才发现这本书是彩色的,而扫描版都是黑白的,所以才导致部分内容不清晰。
(2)找到一款识别能力更强的识别软件。
首先,找了百度AI,他们有一款识别文字的API接口,我本来想调用接口测试一下,这个需要自己写代码,没有可视化的操作界面,我想等有空了在试试看。
重新搜索其他的识别软件,找到一款Abbyy的识别软件,该软件专注OCR文字识别好多年。我专门调了几张图片比较模糊的想试试看他能不能识别出来,结果识别效果明显比“Adobe Acrobat DC”的识别效果好多了,而且对于识别错误的文字也都能够明显的标了出来,要是有时间,还能把这些识别错误的文字给改改。但是能识别出来这些效果已经是我想要的了,我就希望大部分能识别,能够满足我的搜索功能就可以了。
好像事情就告一段落了,结果没有。新的问题又来了,我在搜“事业环境因素”这本书有900多页,60多个结果,对于我刚开始想要的快速定位到知识点还是有点费劲。我又想有没有一款软件能够实现,像搜索引擎一样把搜索结果的前后文展示在一个列表里呢?
测试了pc版本的kindle,他是能展示所有结果,不过不知道为什么每次只能搜索一个字。
搜索多个字的时候不显示结果,可能是软件bug,可能是没有按中文词组做分词原因导致的每次只能单个字搜索。
换了一个软件,使用“Adobe Acrobat DC”,找找看看有没有类似搜索的功能。
该软件有一个索引的功能,可以给文档创建索引,提高文章检索速度,也可以展示搜索的搜索结果。
注意:按住shift+Ctrl+F 而不是Ctrl+F,所有的搜索结果才会显示出来。如下图所示: