2.5. CRUSH 階層の開発
ストレージ管理者は、Ceph Storage クラスターおよび Object Gateway のデプロイ時に、通常 Ceph Object Gateway にはデフォルトのゾーングループおよびゾーンがあります。Ceph ストレージクラスターにはデフォルトのプールがあり、次に、デフォルトの CRUSH 階層およびデフォルトの CRUSH ルールで CRUSH マップを使用します。
デフォルトの rbd
プールは、デフォルトの CRUSH ルールを使用できます。Ceph クライアントがデフォルトのルールまたは階層を使用してクライアントデータを保存している場合は、それらを削除 しないでください。
実稼働ゲートウェイは通常、ゲートウェイの使用および地理的な場所に従って名前が付けられるカスタムレルム、ゾーングループ、およびゾーンを使用します。また、Ceph ストレージクラスターには、複数の CRUSH 階層を持つ CRUSH マップがあります。
-
サービスプール: 少なくとも 1 つの CRUSH 階層はサービスプール用であり、場合によってはデータ用になります。サービスプールには、
.rgw.root
と、ゾーンに関連付けられたサービスプールが含まれます。サービスプールは、通常単一の CRUSH 階層下にあり、データの持続性のためにレプリケーションを使用します。データプールは CRUSH 階層を使用することもできますが、通常プールはデータの耐久性のためにイレイジャーコーディングで設定されます。 - インデックス: 少なくとも 1 つの CRUSH 階層はインデックスプール用にある 必要があり、CRUSH 階層は SSD ドライブや NVMe ドライブなどの高パフォーマンスのメディアにマップされます。バケットインデックスはパフォーマンスのボトルネックとなる可能性があります。Red Hat は、この CRUSH 階層で SSD または NVMe ドライブを使用することを推奨します。Ceph OSD ジャーナルに使用される SSD または NVMe ドライブのインデックス用にパーティションを作成します。さらに、インデックスはバケットシャーディングで設定する必要があります。
- 配置プール: 各配置ターゲットの配置プールには、バケットインデックス、データバケット、およびバケットの追加が含まれます。これらのプールは、個別の CRUSH 階層下に分類できます。Ceph Object Gateway は複数のストレージポリシーをサポートすることができるため、ストレージポリシーのバケットプールは異なる CRUSH 階層に関連付け、IOPS 最適化、スループット最適化、容量最適化などの異なるユースケースを反映できます。バケットインデックスプールには、SSD ドライブ、NVMe ドライブなどの高性能記憶媒体にバケットインデックスプールをマップするために、独自の CRUSH 階層を使用 すべきです。
2.5.1. CRUSH ルートの作成
管理ノードのコマンドラインから、各 CRUSH 階層に対して CRUSH マップに CRUSH ルートを作成します。また、潜在的にデータストレージプールを担うことができるサービスプールに、少なくとも 1 つの CRUSH 階層がある 必要があります。そのような SSD、NVMe ドライブなどの高性能ストレージメディアにマッピングされたバケットインデックスプールに、少なくとも 1 つの CRUSH 階層が あるはず です。
CRUSH 階層の詳細は、Red Hat Ceph Storage ストレージストラテジーガイド 8 の CRUSH 階層 セクションを参照してください。
CRUSH マップを手動で編集するには、Red Hat Ceph Storage ストレージストラテジーガイド 8 の CRUSH マップの編集 セクションを参照してください。
以下の例では、data0
、data1
、および data2
という名前のホストは、同じ物理ホストを参照する CRUSH の階層が複数存在するため、data0-sas-ssd
、data0-index
などの拡張論理名を使用します。
一般的な CRUSH ルートは、SAS ドライブを持つノードとジャーナル用の SSD を表す可能性があります。以下に例を示します。
## # SAS-SSD ROOT DECLARATION ## root sas-ssd { id -1 # do not change unnecessarily # weight 0.000 alg straw hash 0 # rjenkins1 item data2-sas-ssd weight 4.000 item data1-sas-ssd weight 4.000 item data0-sas-ssd weight 4.000 }
バケットインデックスの CRUSH ルートは、SSD や NVMe ドライブなどの高パフォーマンスメディアを 表すはず です。OSD ジャーナルを格納する SSD または NVMe メディアにパーティションを作成することを検討してください。以下に例を示します。
## # INDEX ROOT DECLARATION ## root index { id -2 # do not change unnecessarily # weight 0.000 alg straw hash 0 # rjenkins1 item data2-index weight 1.000 item data1-index weight 1.000 item data0-index weight 1.000 }
2.5.2. CRUSH マップでの論理ホスト名の使用
RHCS 3 以降のリリースでは、CRUSH はストレージデバイスの "class" の概念をサポートします。これは、RHCS 2 以前のバージョンではサポートされないためです。NVMe、SSD、HDD などの複数のストレージデバイスを含むホストまたはノードを持つ RHCS 3 クラスターでは、デバイスクラスを持つ単一の CRUSH 階層を使用して、ストレージデバイスの異なるクラスを区別します。これにより、論理ホスト名を使用する必要がなくなります。RHCS 2 以前のリリースでは、複数の CRUSH 階層を使用し、デバイスの各クラスに 1 つ、論理ホスト名を使用して CRUSH 階層内のホストまたはノードを区別します。
RHCS 3 以降のリリースでは、CRUSH はストレージデバイスの "class" の概念をサポートします。これは、RHCS 2 以前のバージョンではサポートされないためです。NVMe、SSD、HDD などの複数のストレージデバイスを含むホストまたはノードを持つ RHCS 3 クラスターでは、デバイスクラスを持つ単一の CRUSH 階層を使用して、ストレージデバイスの異なるクラスを区別します。これにより、論理ホスト名を使用する必要がなくなります。RHCS 2 以前のリリースでは、複数の CRUSH 階層を使用し、デバイスの各クラスに 1 つ、論理ホスト名を使用して CRUSH 階層内のホストまたはノードを区別します。
CRUSH マップでは、ホスト名は一意で、1 回のみ使用する必要があります。ホストが複数の CRUSH 階層とユースケースに対応する場合、CRUSH マップは実際のホスト名の代わりに論理ホスト名を使用して、ホスト名が一度だけ使用されるようにします。たとえば、ノードには、SSD などの複数のドライブ、SSD ジャーナルを備えた SAS ドライブ、および同一ジャーナルを持つ SATA ドライブが複数ある場合があります。RHCS 2 以前のリリースでは、同じホストに複数の CRUSH 階層を作成するには、階層は実際のホスト名の代わりに論理ホスト名を使用する必要があります。そのため、バケット名は CRUSH 階層内で一意となるようにします。たとえば、ホスト名が data2
の場合、CRUSH 階層は、data2-sas-ssd
、data2-index
などの論理名を使用する可能性があります。
host data2-sas-ssd { id -11 # do not change unnecessarily # weight 0.000 alg straw hash 0 # rjenkins1 item osd.0 weight 1.000 item osd.1 weight 1.000 item osd.2 weight 1.000 item osd.3 weight 1.000 }
前述の例では、ホスト data2
は論理名 data2-sas-ssd
を使用して、SSD にジャーナルのある SAS ドライブを 1 つの階層にマッピングします。osd.0
から osd.3
の OSD ID は、高スループットのハードウェア設定で SSD ジャーナルを使用する SAS ドライブを表しています。これらの OSD ID は、以下の例の OSD ID とは異なります。
以下の例では、ホスト data2
は論理名 data2-index
を使用してバケットインデックスの SSD ドライブを 2 つ目の階層にマッピングします。osd.4
の OSD ID は、バケットインデックスプール専用に使用される SSD ドライブまたはその他の高速ストレージメディアを示しています。
host data2-index { id -21 # do not change unnecessarily # weight 0.000 alg straw hash 0 # rjenkins1 item osd.4 weight 1.000 }
論理ホスト名を使用する場合は、以下の設定のいずれかが Ceph 設定ファイルに存在することを確認します。これにより、OSD 起動スクリプトが起動時に実際のホスト名を使用しなくなり、CRUSH マップのデータの検索に失敗します。
CRUSH マップが論理ホスト名を使用する場合、この例では、OSD の起動スクリプトが、初期化時に実際のホスト名に従ってホストを特定しないようにします。Ceph 設定ファイルの [global]
セクションに、以下の設定を追加します。
osd_crush_update_on_start = false
論理ホスト名を定義する別の方法は、Ceph 設定ファイルの [osd.<ID>]
セクションで各 OSD の CRUSH マップの場所を定義することです。これにより、OSD の起動スクリプトが定義する場所が上書きされます。前述の例からは、エントリーは以下のようになります。
[osd.0] osd crush location = "host=data2-sas-ssd" [osd.1] osd crush location = "host=data2-sas-ssd" [osd.2] osd crush location = "host=data2-sas-ssd" [osd.3] osd crush location = "host=data2-sas-ssd" [osd.4] osd crush location = "host=data2-index"
CRUSH マップが実際のホスト名ではなく論理ホスト名を使用する場合、Ceph Storage Cluster は OSD が実際のホスト名にマップされ、実際のホスト名は CRUSH マップにないことを想定し、Ceph Storage Cluster は OSD が実際のホスト名にないことを想定し、Ceph Storage Cluster クライアントは OSD とそのデータを見つけません。
2.5.3. CRUSH ルールの作成
デフォルトの CRUSH 階層と同様に、CRUSH マップにはデフォルトの CRUSH ルールも含まれます。
デフォルトの rbd
プールはこのルールを使用できます。他のプールを使用して顧客データを保存する場合は、デフォルトのルールを削除しないでください。
CRUSH ルールに関する詳細は、Red Hat Ceph Storage 8 のRed Hat Ceph Storage ストラテジーガイド の CRUSH ルール セクションを参照してください。CRUSH マップを手動で編集するには、Red Hat Ceph Storage 8 の Red Hat Ceph Storage ストレージストラテジーガイド で CRUSH マップの編集 を参照してください。
CRUSH 階層ごとに、CRUSH ルールを作成します。以下の例は、.rgw.root
を含むサービスプールを保存する CRUSH 階層のルールを示しています。この例では、ルート sas-ssd
がメインの CRUSH 階層として機能します。デフォルトのルールと区別するために、rgw-service
という名前を使用します。step take sas-ssd
行は、CRUSH ルートの作成 で作成された sas-ssd
ルートを使用するようにプールに指示します。このルートの子バケットには、SAS ドライブを備えた OSD と、高スループットハードウェア設定のジャーナルに対して SSD または NVMe ドライブなどの高性能ストレージメディアが含まれます。step chooseleaf
の type rack
部分が障害ドメインになります。以下の例では、ラックです。
## # SERVICE RULE DECLARATION ## rule rgw-service { type replicated min_size 1 max_size 10 step take sas-ssd step chooseleaf firstn 0 type rack step emit }
次の例では、データが 3 回レプリケートされる場合、クラスター内に同数の OSD ノードを含むラックが少なくとも 3 つ必要です。
type replicated
設定は、データ永続性、レプリカ数、またはイレイジャーコーディングとは 関係ありません。複製
のみがサポートされます。
以下の例は、データプールを保存する CRUSH 階層のルールを示しています。この例では、root sas-ssd
は、サービスルールと同じ CRUSH 階層としてメインの CRUSH 階層として機能します。rgw-throughput
を使用して、デフォルトのルールと rgw-service
と区別します。step take sas-ssd
行は、CRUSH ルートの作成 で作成された sas-ssd
ルートを使用するようにプールに指示します。このルートの子バケットには、SAS ドライブを備えた OSD と、高スループットハードウェア設定の SSD または NVMe ドライブなどの高性能ストレージメディアが含まれます。step chooseleaf
の type host
部分障害ドメインになります。以下の例では、ホストです。ルールは同じ CRUSH 階層を使用し、異なる障害ドメインを使用することに注意してください。
## # THROUGHPUT RULE DECLARATION ## rule rgw-throughput { type replicated min_size 1 max_size 10 step take sas-ssd step chooseleaf firstn 0 type host step emit }
次の例では、プールがデフォルトより多いデータチャンクおよびエンコーディングチャンクを使用するイレイジャーコーディングを採用している場合、クラスター内に同等数の OSD ノードを含むラックが少なくとも同数存在する必要があります。これにより、イレイジャーコーディングチャンクを容易に処理できます。小規模なクラスターの場合、これは実用的ではない可能性があるため、前述の例では host
を CRUSH 障害ドメインとして使用します。
以下の例は、インデックスプールを保存する CRUSH 階層のルールを示しています。この例では、root の index
は主な CRUSH 階層として機能します。rgw-index
を使用して、rgw-service
と rgw-throughput
と区別します。step take index
行は、CRUSH ルートの作成 で作成された index
root を使用するようにプールに指示します。その子バケットには、SSD ドライブ、NVMe ドライブなどの高性能ストレージメディア、または OSD ジャーナルも格納する SSD ドライブまたは NVMe ドライブ上のパーティションが含まれます。step chooseleaf
の type rack
部分が障害ドメインになります。以下の例では、ラックです。
## # INDEX RULE DECLARATION ## rule rgw-index { type replicated min_size 1 max_size 10 step take index step chooseleaf firstn 0 type rack step emit }
CRUSH Multi-Step Retry (MSR) ルール
crush-osds-per-failure-domain
値が 1 より大きいイレイジャーコードプロファイルを作成すると、通常の CRUSH ルールではなく CRUSH MSR ルールタイプが作成されます。通常の CRUSH ルールでは、Out OSD が発生した場合、前のステップを再試行できません。ただし、MSR ルールは、Out OSD が発生したときにすべての前のステップを再試行することにより、障害ドメインごとに複数の OSD をサポートします。
たとえば、1.75 倍のストレージオーバーヘッドでホストの損失と別のホスト上の OSD を許容するために、4 つのホストに分割された 8+6 EC エンコーディングの通常の CRUSH ルールは次のようになります。
rule ecpool-86 { ... step take default class hdd step choose indep 4 type host step choose indep 4 type osd step emit }
これにより、最大 16 個の OSD が 4 つのホスト間で分割されます。ただし、リバランスをとる他のホストがある場合、OSD がマークアウトされるため、動作が低下します。
CRUSH MSR ルールは、通常のルールの幅優先アプローチではなく、深さ優先アプローチを使用して上記の問題を解決します。それぞれの選択について、ルールはすべてのステップを再帰的に下降してから次の選択に進みます。上記のユースケースは、次の MSR ルールで満たすことができます。
rule ecpool-86 { type msr_indep ... step take default class hdd step choosemsr 4 type host step choosemsr 4 type osd step emit }
アウトとマークされた OSD は、利用可能なエクストラがある限り、他のホストに比例して再マップされます。
2.5.4. CRUSH Multi-Step Retry (MSR) ルール
crush-osds-per-failure-domain 値が 1 より大きいイレイジャーコードプロファイルを作成すると、通常の CRUSH ルールではなく CRUSH MSR ルールタイプが作成されます。通常の CRUSH ルールでは、Out OSD が発生した場合、前のステップを再試行できません。ただし、MSR ルールは、Out OSD が発生したときにすべての前のステップを再試行することにより、障害ドメインごとに複数の OSD をサポートします。
たとえば、1.75 倍のストレージオーバーヘッドでホストの損失と別のホスト上の OSD を許容するために、4 つのホストに分割された 8+6 EC エンコーディングの通常の CRUSH ルールは次のようになります。
rule ecpool-86 { ... step take default class hdd step choose indep 4 type host step choose indep 4 type osd step emit }
これにより、最大 16 個の OSD が 4 つのホスト間で分割されます。ただし、リバランスをとる他のホストがある場合、OSD がマークアウトされるため、動作が低下します。
クラスターで新しい機能を使用できるようにするには、クラスターが Squid (およびそれ以降の) クライアントのみをサポートするように制限する必要があります。これを行うには、'ceph osd set-require-min-compat-client squid' コマンドを実行します。Squid 以前のクライアントまたはデーモンがモニターに接続されている場合、このコマンドは失敗します。使用されているクライアントバージョンを確認するには、'ceph features' コマンドを実行します。
CRUSH MSR ルールは、通常のルールの幅優先アプローチではなく、深さ優先アプローチを使用して上記の問題を解決します。それぞれの選択について、ルールはすべてのステップを再帰的に下降してから次の選択に進みます。上記のユースケースは、次の MSR ルールで満たすことができます。
rule ecpool-86 { type msr_indep ... step take default class hdd step choosemsr 4 type host step choosemsr 4 type osd step emit }
アウトとマークされた OSD は、利用可能なエクストラがある限り、他のホストに比例して再マップされます。
関連情報
- CRUSH 階層に関する一般的な情報は、Red Hat Ceph Storage ストレージストラテジーガイド の CRUSH 管理 セクションを参照してください。