7.4.3.3. 可用分析器

SOLR 和 Lucene 附带许多有用的默认 char 过滤器、令牌程序和过滤器。您可以在 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters 找到 char 过滤器工厂、令牌方工厂和过滤工厂的完整列表。我们来看一下其中几个。

Expand

表 7.7. 可用的 Char Filters
工厂	描述	参数
MappingCharFilterFactory	根据资源文件中指定的映射，将一个或多个字符替换为一个或多个字符	`映射` ：指向包含映射的资源文件，格式为："á" SAS "a"; "ñ" SAS "n"; "您" SAS "o"
HTMLStripCharFilterFactory	删除 HTML 标准标签，保留文本	none

Expand

表 7.8. 可用令牌程序
工厂	描述	参数
StandardTokenizerFactory	使用 Lucene StandardTokenizer	none
HTMLStripCharFilterFactory	删除 HTML 标签，保留文本并将其传递到标准Tokenizer。	none
PatternTokenizerFactory	将文本拆分到指定的正则表达式模式.	pattern ：用于令牌化的正则表达式 Group ：表示要提取到令牌中的哪个模式组

Expand

表 7.9. 可用的过滤器
工厂	描述	参数
StandardFilterFactory	从单词中删除缩写和的点数	none
LowerCaseFilterFactory	小写所有单词	none
StopFilterFactory	删除与 stop 词语列表匹配的词语（令牌）	word: 指向包含 stop 词语的资源文件 ignoreCase: true，如果比较 stop 字时应忽略大小写，否则为 false
SnowballPorterFilterFactory	以给定语言将单词减到其 root。（例如：保护、保护、保护共享同一根）。使用这样的过滤器可以搜索匹配相关的词语。	`语言` ：丹麦、荷兰语、英语、芬兰语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语、瑞典语以及一些其他语言

我们建议检查 IDE 中 org.apache.lucene.analysis.TokenizerFactory 和 org.apache.lucene.analysis.TokenFilterFactory 中的所有实施，以查看可用的实施。