搜索

第 349 章 Tika Component

download PDF

作为 Camel 版本 2.19 可用

Tika :组件提供了使用 Apache Tika 检测和解析文档的功能。此组件使用 Apache Tika 作为基础库来操作文档。

要使用 Tika 组件,Maven 用户需要将以下依赖项添加到其 pom.xml 中:

pom.xml

<dependency>
    <groupId>org.apache.camel</groupId>
    <artifactId>camel-tika</artifactId>
    <version>x.x.x</version>
    <!-- use the same version as your Camel core version -->
</dependency>

TIKA 组件仅支持制作者端点。

349.1. 选项

Tika 组件没有选项。

Tika 端点使用 URI 语法进行配置:

tika:operation

使用以下路径和查询参数:

349.1.1. 路径名(1 参数):

名称描述默认类型

operation

所需的 Tika Operation. parse 或 detect

 

TikaOperation

349.1.2. 查询参数(5 参数):

名称描述默认类型

tikaConfig (producer)

Tika Config

 

TikaConfig

tikaConfigUri (producer)

Tika Config Uri: tika-config.xml 的 URI

 

字符串

tikaParseOutputEncoding (producer)

Tika Parse Output Encoding - 用来指定解析输出的字符编码。Defaults to Charset.defaultCharset() .

 

字符串

tikaParseOutputFormat (producer)

Tika 输出格式.支持的输出格式.xml:返回 Parsed 内容作为 XML.html:返回 Parsed Contents Parsed Content: returns Parsed Content as Text. textMain: 使用 boilerpipe 库自动从 web 页面中提取主内容。

xml

TikaParseOutputFormat

同步 (高级)

设置同步处理是否应当严格使用,还是允许 Camel 使用异步处理(如果受支持)。

false

布尔值

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.