検索

14.2.3.3. 利用可能なアナライザー

download PDF
Solr と Lucene には、便利なデフォルトの char フィルター、トークナイザー、およびフィルターが多数付属しています。文字型フィルターファクトリー、トークン化ファクトリー、およびフィルターファクトリーの完全な一覧は、http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters にあります。それらのいくつかを確認してみましょう。
表14.1 利用可能な char フィルターの例
ファクトリー 説明 パラメーター 追加の依存関係
MappingCharFilterFactory リソースファイルで指定されたマッピングに基づいて、1 文字または複数の文字を 1 文字または複数の文字に置き換えます。
マッピング: 次の形式を使用して、マッピングを含むリソースファイルを指します。


                    "á" => "a"
                    "ñ" => "n"
                    "ø" => "o"

none
HTMLStripCharFilterFactory HTML 標準のタグを削除し、テキストを保持します。 none none
表14.2 利用可能なトークナイザーの例
ファクトリー 説明 パラメーター 追加の依存関係
StandardTokenizerFactory Lucene StandardTokenizer の使用 none none
HTMLStripCharFilterFactory HTML タグを削除し、テキストを保持して StandardTokenizer に渡します。 none solr-core
PatternTokenizerFactory 指定された正規表現パターンでテキストを区切ります。
pattern: トークン化に使用する正規表現
group: トークンに抽出するパターングループを示します。
solr-core
表14.3 利用可能なフィルターの例
ファクトリー 説明 パラメーター 追加の依存関係
StandardFilterFactory 略語および単語からドットを削除する none solr-core
LowerCaseFilterFactory すべての単語を小文字にします none solr-core
StopFilterFactory ストップワードの一覧に一致する単語 (トークン) を削除します。
words: ストップワードを含むリソースファイルを参照します。
ignoreCase: ストップワードを比較する際に case が無視される必要がある場合は true、そうでない場合は false を設定します。
solr-core
SnowballPorterFilterFactory 特定の言語で、単語を語根に減らします (例: protect、protects、protection は同じ語根を共有)。このようなフィルターを使用すると、関連する単語を検索できます。 language: デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、イタリア語、ノルウェー語、ポルトガル語、ロシア語、韓国語、スウェーデン語など solr-core
ISOLatin1AccentFilterFactory フランス語などの言語のアクセントを削除する none solr-core
PhoneticFilterFactory 音声的に類似したトークンをトークンストリームに挿入します
エンコーダー:DoubleMetaphone、Metaphone、Soundex または RefinedSoundex のいずれか
注入:trueストリームにトークンを追加し、false既存のトークンを置き換えます
maxCodeLength: 生成されるコードの最大長を設定します。Metaphone および DoubleMetaphone エンコーディングでのみサポートされます
solr-core および commons-codec
CollationKeyFilterFactory 各トークンを java.text.CollationKey に変換してから、IndexableBinaryStringTools を使用して CollationKey エンコードし、インデックス用語として保存できるようにします。 カスタム言語バリアント強度分解
詳細については、Lucene の Collat ionKeyFilterjavadocs を参照してください。
solr- コアコモンズ -io
IDE で org.apache.solr.analysis.TokenizerFactoryorg.apache.solr.analysis.TokenFilterFactory のすべての実装を確認して、利用可能な実装を確認することが推奨されます。
Red Hat logoGithubRedditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

© 2024 Red Hat, Inc.