7.4.3.3. 可用分析器
SOLR 和 Lucene 附带许多有用的默认 char 过滤器、令牌程序和过滤器。您可以在 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters 找到 char 过滤器工厂、令牌方工厂和过滤工厂的完整列表。我们来看一下其中几个。
| 工厂 | 描述 | 参数 |
|---|---|---|
| MappingCharFilterFactory | 根据资源文件中指定的映射,将一个或多个字符替换为一个或多个字符 |
|
| HTMLStripCharFilterFactory | 删除 HTML 标准标签,保留文本 | none |
| 工厂 | 描述 | 参数 |
|---|---|---|
| StandardTokenizerFactory | 使用 Lucene StandardTokenizer | none |
| HTMLStripCharFilterFactory | 删除 HTML 标签,保留文本并将其传递到标准Tokenizer。 | none |
| PatternTokenizerFactory | 将文本拆分到指定的正则表达式模式. | pattern :用于令牌化的正则表达式 Group :表示要提取到令牌中的哪个模式组 |
| 工厂 | 描述 | 参数 |
|---|---|---|
| StandardFilterFactory | 从单词中删除缩写和 的点数 | none |
| LowerCaseFilterFactory | 小写所有单词 | none |
| StopFilterFactory | 删除与 stop 词语列表匹配的词语(令牌) | word: 指向包含 stop 词语的资源文件 ignoreCase: true,如果比较 stop 字时应忽略大小写,否则为 false |
| SnowballPorterFilterFactory | 以给定语言将单词减到其 root。(例如:保护、保护、保护共享同一根)。使用这样的过滤器可以搜索匹配相关的词语。 |
|
我们建议检查 IDE 中 org.apache.lucene.analysis.TokenizerFactory 和 org.apache.lucene.analysis.TokenFilterFactory 中的所有实施,以查看可用的实施。