什么双层PDF(矢量PDF)
“双层PDF”又称为“可检索式PDF”(searchablePDF),一般将其定义为“底层是扫描图像(Image)层,上层是透明文字(Text)层的PDF,阅读时看到的是与纸样一致的底层扫描图像,搜索或用光标选取时又可直接对上层文字进行操作。因其具有文字可检索的性质,可以在网络上进行在线检索,并通过建立索引数据库进行科学的管理,所以非常适用于网络期刊。万方和维普期刊数据库对用方正书版排版的期刊就是将样刊扫描后,经OCR识别生成Image-Text(图像-文本)型双层PDF文件以供下载。
优缺点
双层PDF制作是在已有的单层PDF文件基础上进行加工,因此,需要对常用的书版文件转PDF的方法进行分析,以筛选出适于用来制作双层PDF的文件素材。一是书版文件直接转换为Text型矢量PDF,二是文杰打印机虚拟打印生成Graphics型矢量PDF,三是PSPPRO虚拟打印法生成Image型光栅PDF。
双层PDF的制作方法
方法一:ABBYYFinereader(简称ABBYY)
利用ABBYYFinereader(简称ABBYY)9.0.0.882以上版本。该软件可识别2.1.1、2.2和2.3节生成的各类PDF文件,在打开文件的同时就将矢量PDF进行光栅化处理。在ABBYY界面中,选择“页面”的“文档语言” 为“简体中文;英文”,打开单层PDF文件,即开始逐页进行文本识别选择转换识别,点击“编辑图像”,对图像分辨率进行选择或设定,一般默认为300dpi。识别结束后将文件另存为“PDF/A文档”,即为双层PDF文件。
方法二:ReadirisCorperate(简称Readiris)
利用ReadirisCorperate(简称Readiris)10以上 中文版本。Readiris中文版带有亚洲识别模块,对中文识别准确,可处理光栅PDF文件和Graphics型矢量PDF文件,在对后者进行识别时将其光栅化,得到的是底层图像为300dpi的双层PDF。打开软件,将“字符 识别向导” 中的图像来源选择为“图像文件”,语言为“中文(简体)”,次要语言为“英式英语”和“英语(美 国)”,格式输出为“发送到Acrobat/Reader图像-文本”。打开单层PDF文件,点击“识别+保存”,即生成 双层PDF文件。在“格式”的“PDF选项”中勾取“制作书签”,便会随文件生成用页码和标题作为索引的 书签,便于查找文中内容。
来源:周雪莹:采用双层PDF形式将方正书版文件制作为可检索式PDF文件