- Apache Tika
- 作用:可以检测和获取文件的文本内容和元数据。支持文件类型众多(PPT, XLS, and PDF,txt、doc等等),对于图片、视频只能获取元数据信息。
- 使用场景:在搜索引擎、内容分析、翻译方面用的很多。比如lucene
参考文档: Apache Tika:通用的内容分析工具
官方教程:Getting Started with Apache Tika
参考文档: Apache Tika:通用的内容分析工具
官方教程:Getting Started with Apache Tika