文本解析工具--Apache Tika使用报告

目录

1.Apache Tika简介

2.Apache Tika配置安装

3.Apache Tika使用体验


1.Apache Tika简介

TiKa

Tika是一个内容分析工具,自带全面的parser工具类,能解析基本所有常见格式的文件,得到文件的metadata,content等内容,返回格式化信息。总的来说可以作为一个通用的解析工具。特别对于搜索引擎的数据抓去和处理步骤有重要意义。

1.1 功能简介

侦测文档的类型,字符编码,语言,等其他现有文档的属性。

提取结构化的文字内容。

该项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。编程语言为Java.

1.2 支持的文档格式

目前支持的文档格式和对应的解析类库如下:

捕获.PNG
获.PNG

2.Apache Tika配置安装

TiKa版本

TiKa提供了一个命令行界面和一个GUI界面,还提供一个java库。我选择下载了app版。下载地址

输入命令java -jar tika-app-1.15.jar --gui打开gui图形管理界面:

图片.png

新建待分析文本tika+text.txt

图片.png

Metadata:


图片.png

Formattedtext:

图片.png

plain text:

图片.png

Structured text:

图片.png

由于未知原因。我的json与main content没有提取出来:

图片.png
图片.png

还可以使用java -jar tika-app-1.15.jar --text *.doc命令进行文本格式的转换,text为要转变的格式,*.doc为你想要转变的文本的物理位置。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容