7.4.3.3. 可用分析器


SOLR 和 Lucene 附带许多有用的默认 char 过滤器、令牌程序和过滤器。您可以在 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters 找到 char 过滤器工厂、令牌方工厂和过滤工厂的完整列表。我们来看一下其中几个。

Expand
表 7.7. 可用的 Char Filters
工厂描述参数

MappingCharFilterFactory

根据资源文件中指定的映射,将一个或多个字符替换为一个或多个字符

映射 :指向包含映射的资源文件,格式为:"á" SAS "a"; "ñ" SAS "n"; "您" SAS "o"

HTMLStripCharFilterFactory

删除 HTML 标准标签,保留文本

none

Expand
表 7.8. 可用令牌程序
工厂描述参数

StandardTokenizerFactory

使用 Lucene StandardTokenizer

none

HTMLStripCharFilterFactory

删除 HTML 标签,保留文本并将其传递到标准Tokenizer。

none

PatternTokenizerFactory

将文本拆分到指定的正则表达式模式.

pattern :用于令牌化的正则表达式

Group :表示要提取到令牌中的哪个模式组

Expand
表 7.9. 可用的过滤器
工厂描述参数

StandardFilterFactory

从单词中删除缩写和 的点数

none

LowerCaseFilterFactory

小写所有单词

none

StopFilterFactory

删除与 stop 词语列表匹配的词语(令牌)

word: 指向包含 stop 词语的资源文件

ignoreCase: true,如果比较 stop 字时应忽略大小写,否则为 false

SnowballPorterFilterFactory

以给定语言将单词减到其 root。(例如:保护、保护、保护共享同一根)。使用这样的过滤器可以搜索匹配相关的词语。

语言 :丹麦、荷兰语、英语、芬兰语、法语、德语、意大利语、葡萄牙语、俄语、西班牙语、瑞典语以及一些其他语言

我们建议检查 IDE 中 org.apache.lucene.analysis.TokenizerFactoryorg.apache.lucene.analysis.TokenFilterFactory 中的所有实施,以查看可用的实施。

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部