搜索

第 349 章 Tika 组件

download PDF

从 Camel 版本 2.19 开始提供

Tika: 组件提供使用 Apache Tika 检测和解析文档的功能。此组件使用 Apache Tika 作为底层库来使用文档。

要使用 Tika 组件,Maven 用户需要将以下依赖项添加到其 pom.xml 中:

pom.xml

<dependency>
    <groupId>org.apache.camel</groupId>
    <artifactId>camel-tika</artifactId>
    <version>x.x.x</version>
    <!-- use the same version as your Camel core version -->
</dependency>

TIKA 组件仅支持生成者端点。

349.1. 选项

Tika 组件没有选项。

Tika 端点使用 URI 语法进行配置:

tika:operation

使用以下路径和查询参数:

349.1.1. 路径参数(1 参数):

Name描述默认值类型

operation

所需的 Tika Operation. 解析或检测

 

TikaOperation

349.1.2. 查询参数(5 参数):

Name描述默认值类型

tikaConfig (producer)

Tika 配置

 

TikaConfig

tikaConfigUri (producer)

Tika Config Uri :tika-config.xml 的 URI

 

字符串

tikaParseOutputEncoding (producer)

Tika Parse Output Encoding - 用来指定解析输出的字符编码。默认为 Charset.defaultCharset ()。

 

字符串

tikaParseOutputFormat (producer)

Tika 输出格式.支持的输出格式. xml: 返回 Parsed Content as XML. html: returneds Parsed Content as HTML. text: returneds Parsed Content as Text. textMain :使用 boilerpipe 库从网页自动提取主内容。

xml

TikaParseOutputFormat

同步 (高级)

设置是否应严格使用同步处理,还是允许 Camel 使用异步处理(如果支持)。

false

布尔值

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.