Apache Tika

发布时间:2017-3-20 6:47:40编辑:www.fx114.net 分享查询网我要评论
本篇文章主要介绍了"Apache Tika ",主要涉及到Apache Tika 方面的内容,对于Apache Tika 感兴趣的同学可以参考一下。

Tika入门

Tika是一个内容抽取的工具集合(a toolkit for text extracting)。它集成了POI, Pdfbox 并且为文本抽取工作提供了一个统一的界面。其次,Tika也提供了便利的扩展API,用来丰富其对第三方文件格式的支持。

在当前版本中,Tika提供了对如下文件格式的支持:

PDF - 通过Pdfbox

MS-* - 通过POI

HTML - 使用nekohtml将不规范的html整理成为xhtml

OpenOffice 格式 - Tika提供

Archive - zip, tar, gzip, bzip等

RTF - Tika提供

Java class - Class解析由ASM完成

Image - 只支持图像的元数据抽取

XML


上一篇:gradle简单模板
下一篇:数组中出现次数超过一半的数字

相关文章

关键词: Apache Tika

相关评论

本站评论功能暂时取消,后续此功能例行通知。

一、不得利用本站危害国家安全、泄露国家秘密,不得侵犯国家社会集体的和公民的合法权益,不得利用本站制作、复制和传播不法有害信息!

二、互相尊重,对自己的言论和行为负责。

好贷网好贷款