第 349 章 Tika 组件
从 Camel 版本 2.19 开始提供
Tika: 组件提供使用 Apache Tika 检测和解析文档的功能。此组件使用 Apache Tika 作为底层库来使用文档。
要使用 Tika 组件,Maven 用户需要将以下依赖项添加到其 pom.xml
中:
pom.xml
<dependency> <groupId>org.apache.camel</groupId> <artifactId>camel-tika</artifactId> <version>x.x.x</version> <!-- use the same version as your Camel core version --> </dependency>
TIKA 组件仅支持生成者端点。
349.1. 选项
Tika 组件没有选项。
Tika 端点使用 URI 语法进行配置:
tika:operation
使用以下路径和查询参数:
349.1.1. 路径参数(1 参数):
Name | 描述 | 默认值 | 类型 |
---|---|---|---|
operation | 所需的 Tika Operation. 解析或检测 | TikaOperation |
349.1.2. 查询参数(5 参数):
Name | 描述 | 默认值 | 类型 |
---|---|---|---|
tikaConfig (producer) | Tika 配置 | TikaConfig | |
tikaConfigUri (producer) | Tika Config Uri :tika-config.xml 的 URI | 字符串 | |
tikaParseOutputEncoding (producer) | Tika Parse Output Encoding - 用来指定解析输出的字符编码。默认为 Charset.defaultCharset ()。 | 字符串 | |
tikaParseOutputFormat (producer) | Tika 输出格式.支持的输出格式. xml: 返回 Parsed Content as XML. html: returneds Parsed Content as HTML. text: returneds Parsed Content as Text. textMain :使用 boilerpipe 库从网页自动提取主内容。 | xml | TikaParseOutputFormat |
同步 (高级) | 设置是否应严格使用同步处理,还是允许 Camel 使用异步处理(如果支持)。 | false | 布尔值 |