第 349 章 Tika Component
作为 Camel 版本 2.19 可用
Tika :组件提供了使用 Apache Tika 检测和解析文档的功能。此组件使用 Apache Tika 作为基础库来操作文档。
要使用 Tika 组件,Maven 用户需要将以下依赖项添加到其 pom.xml
中:
pom.xml
<dependency> <groupId>org.apache.camel</groupId> <artifactId>camel-tika</artifactId> <version>x.x.x</version> <!-- use the same version as your Camel core version --> </dependency>
TIKA 组件仅支持制作者端点。
349.1. 选项
Tika 组件没有选项。
Tika 端点使用 URI 语法进行配置:
tika:operation
使用以下路径和查询参数:
349.1.1. 路径名(1 参数):
名称 | 描述 | 默认 | 类型 |
---|---|---|---|
operation | 所需的 Tika Operation. parse 或 detect | TikaOperation |
349.1.2. 查询参数(5 参数):
名称 | 描述 | 默认 | 类型 |
---|---|---|---|
tikaConfig (producer) | Tika Config | TikaConfig | |
tikaConfigUri (producer) | Tika Config Uri: tika-config.xml 的 URI | 字符串 | |
tikaParseOutputEncoding (producer) | Tika Parse Output Encoding - 用来指定解析输出的字符编码。Defaults to Charset.defaultCharset() . | 字符串 | |
tikaParseOutputFormat (producer) | Tika 输出格式.支持的输出格式.xml:返回 Parsed 内容作为 XML.html:返回 Parsed Contents Parsed Content: returns Parsed Content as Text. textMain: 使用 boilerpipe 库自动从 web 页面中提取主内容。 | xml | TikaParseOutputFormat |
同步 (高级) | 设置同步处理是否应当严格使用,还是允许 Camel 使用异步处理(如果受支持)。 | false | 布尔值 |