#为PDF文件添加书签
##工具
* Synwrite(或EverEdit),后面要用到Synwrite强大的列编辑!
* 能批量处理加减法的编程软件,最好能接受粘贴的列数字能被识别为向量(或矩阵),Matlab应该可以,我使用的是Apetch GAUSS。
* freepic2PDF,必备!使用“更改pdf”向pdf挂书签。
* Acrobat Pro,用来减少PDF文件的大小。用到“save as others...->optimized pdf...”
* ABBYY FineReader Pro,识别目录,提取章节名及页码。
* 熟悉正则表达式。
##开工
1. 从网上搜索PDF文件的目录(要带页码的)。从bookschina、蔚蓝网上书店(www.wl.cn),或者出版该书的出版社主页找。如果能找到,利用正则表达式替换,结合freepic2PDF轻松搞定PDF挂书签。下面叙述的是不能找到的解决方案。
2. PDF一般都有目录,用ABBYY FineReader Pro识别目录中章节标题及页码。注意,启动ABBYY后,马上点击下方的OCR全书的进度条边上的×,取消扫描全书。识别目录时,选择区域识别比较快。
3. 将OCR得到的章节名及页码复制到Synwrite,用正则表达式格式化,使最后的形式符合freepic2PDF的要求。这步可先用freepic2PDF打开PDF文件,提取书签(没有也可以提取),打开与PDF同名的目录,编辑书签文件,将整理好的章节及页码复制到书签文件中。
4. 执行freepic2PDF,将书签挂上PDF。如果正好,下面就不用看了。一般扫描的书往往由于某些原因,会缺损部分页码,缺失的部分主要是一些空白页,或者作者认为不需要的页面。下面假定挂上的PDF书签比较有规律的少一些页码,在此先手动将目录的正确书签调整好。
5. 用Synwrite打开书签文件,将从第一章开始直到最后的内容剪切(复制)到新建的文件(也就是不复制“目录、前言、版权”等部分)
6. 用鼠标点击第一行第一列字母前,按住ctrl+shift,拖动鼠标一直到最后一行的第一列字母前点击,进入列编辑,光标已经处于第一列的位置。按一下end,光标移动到行尾。按住shift,同时向左移动光标就可以选中代表页码的数字。按下ctrl+x就可以剪切这些数字。按下ctrl+v就可以在列后粘贴数字,Synwrite支持批量替换这些数字,只要你有同样多的数字,EverEdit没有这个功能。
7. 将数字(页码)剪切(ctrl+x)出来,在GAUSS中新建一个变(向)量,粘贴的数字作为向量的分量。根据页码的情况,对向量进行加减运算,得到合适的数字(页码)。将向量以列的形式显示,复制显示的结果,在Synwrite的新建一个文件,去除数字前方的空格和后面的000等。复制整理后的数字,在第6步中剪切的文件中,粘贴(ctrl+v),再把所有的结果复制到书签文件中。执行freepic2PDF,将书签挂上PDF。
8. 运行Acrobat Pro,打开挂上书签的PDF,“File->save as others...->optimized pdf...”去掉image setting的复选勾(据说选中会降低扫描的PDF文件的清晰度),save。
9. 在第6步中,为了正确的得到书签,在分割书签时,将内容按照页码为1-10、10-100、101-1000等进行剪切。具体分几部分,要看点击书签后的实时显示情况,进行页码的加减也要如此。