一. Apache Tika的简介
Apache Tika 是利用现有的解析类库,从不同格式的文档中(例如HTML, PDF, Doc),侦测和提取出元数据和结构化内容。该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具,编程语言为Java。
其功能包括:
1.侦测文档的类型,字符编码,语言,等其他现有文档的属性。
2.提取结构化的文字内容。
Tika的架构:
下图为Tika的架构以及关键零部件的主要设计目标:由一个解析器框架,MIME检测机制,语言检测,和一个facade组件联系所有组件。外部接口,包括命令行和图形界面,允许用户集成到脚本或者应用程序,并与Tika直接交互。在整个结构中,Tika的体系结构是可扩展的,新的解析器可以轻松地添加和删除。
二. Tika的下载及安装
下载并配置Java JDK
下载Tika的源代码Mirrors for tika-1.14-src.zip和Tika的jar包Mirrors for tika-app-1.14.jar
在cmd里键入命令打开GUI图形界面
三. 文件解析
先编写一个二进制文件tika.txt
用GUI图形界面打开这个文件,显示提取的元数据Metadata
再将其解析为其他格式
Formatted Text
Plain text
Main content为空
XML
json
四. 用命令行使用tika
查看Tika命令行的基本参数
用命令将解析doc文件