14.2.3.3. 利用可能なアナライザー
Solr と Lucene には、便利なデフォルトの char フィルター、トークナイザー、およびフィルターが多数付属しています。文字型フィルターファクトリー、トークン化ファクトリー、およびフィルターファクトリーの完全な一覧は、http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters にあります。それらのいくつかを確認してみましょう。
ファクトリー | 説明 | パラメーター | 追加の依存関係 |
---|---|---|---|
MappingCharFilterFactory | リソースファイルで指定されたマッピングに基づいて、1 文字または複数の文字を 1 文字または複数の文字に置き換えます。 | マッピング : 次の形式を使用して、マッピングを含むリソースファイルを指します。
| none |
HTMLStripCharFilterFactory | HTML 標準のタグを削除し、テキストを保持します。 | none | none |
ファクトリー | 説明 | パラメーター | 追加の依存関係 |
---|---|---|---|
StandardTokenizerFactory | Lucene StandardTokenizer の使用 | none | none |
HTMLStripCharFilterFactory | HTML タグを削除し、テキストを保持して StandardTokenizer に渡します。 | none | solr-core |
PatternTokenizerFactory | 指定された正規表現パターンでテキストを区切ります。 | pattern : トークン化に使用する正規表現
group: トークンに抽出するパターングループを示します。
| solr-core |
ファクトリー | 説明 | パラメーター | 追加の依存関係 |
---|---|---|---|
StandardFilterFactory | 略語および単語からドットを削除する | none | solr-core |
LowerCaseFilterFactory | すべての単語を小文字にします | none | solr-core |
StopFilterFactory | ストップワードの一覧に一致する単語 (トークン) を削除します。 | words : ストップワードを含むリソースファイルを参照します。
ignoreCase: ストップワードを比較する際に
case が無視される必要がある場合は true、そうでない場合は false を設定します。
| solr-core |
SnowballPorterFilterFactory | 特定の言語で、単語を語根に減らします (例: protect、protects、protection は同じ語根を共有)。このようなフィルターを使用すると、関連する単語を検索できます。 | language : デンマーク語、オランダ語、英語、フィンランド語、フランス語、ドイツ語、イタリア語、ノルウェー語、ポルトガル語、ロシア語、韓国語、スウェーデン語など | solr-core |
ISOLatin1AccentFilterFactory | フランス語などの言語のアクセントを削除する | none | solr-core |
PhoneticFilterFactory | 音声的に類似したトークンをトークンストリームに挿入します | エンコーダー :DoubleMetaphone、Metaphone、Soundex または RefinedSoundex のいずれか
注入:
true ストリームにトークンを追加し、false 既存のトークンを置き換えます
maxCodeLength : 生成されるコードの最大長を設定します。Metaphone および DoubleMetaphone エンコーディングでのみサポートされます
| solr-core および commons-codec |
CollationKeyFilterFactory | 各トークンを java.text.CollationKey に変換してから、IndexableBinaryStringTools を使用して CollationKey を エンコードし、インデックス用語として保存できるようにします。 | カスタム 、言語 、国 、バリアント 、強度 、分解
詳細については、Lucene の
Collat ionKeyFilterjavadocs を参照してください。
| solr- コア と コモンズ -io |
IDE で
org.apache.solr.analysis.TokenizerFactory
と org.apache.solr.analysis.TokenFilterFactory
のすべての実装を確認して、利用可能な実装を確認することが推奨されます。