2.8. CRUSH の調整可能パラメーター
Ceph プロジェクトでは、多くの変更と新機能が指数関数的に拡張されました。Ceph の最初の商用サポート対象メジャーリリース v0.48 (Argonaut) から始め、Ceph は CRUSH アルゴリズムの特定パラメーターを調整する機能を提供します。つまり、設定はソースコードでフリーズしません。
考慮すべき重要な点を以下に示します。
- CRUSH の値を調整すると、ストレージノード間で一部の PG の変化が発生することがあります。Ceph クラスターが多数のデータを保存する場合には、移動するデータの一部を準備する必要があります。
-
ceph-osd
デーモンおよびceph-mon
デーモンは、更新されたマップを受け取るとすぐに、新しい接続の機能ビットを要求するようになります。ただし、すでに接続済みのクライアントはすでに取得され、新機能をサポートしない場合は誤作動します。Ceph クライアントも更新する Ceph Storage Cluster デーモンをアップグレードする場合を確認してください。 -
CRUSH の調整可能パラメーターがレガシー以外の値に設定され、後でレガシー値に戻された場合は、その機能をサポートするのに
ceph-osd
デーモンは必要ありません。ただし、OSD ピアリングプロセスでは、古いマップを調べ、理解する必要があります。したがって、クラスターが以前に非レガシー CRUSH 値を使用していた場合は、マップの最新バージョンがレガシーデフォルトの使用に戻されたとしても、古いバージョンのceph-osd
デーモンを実行しないでください。
2.8.1. CRUSH の調整可能パラメーターの進化
バージョン 0.48 より前の Ceph クライアントおよびデーモンは、調整可能を検出せず、バージョン 0.48 以降と互換性がありません。アップグレードする必要があります。調整可能パラメーター CRUSH の値も、主要な Ceph リリースと共に進化しました。
レガシー値
CRUSH Tunables を使用して新しいクラスターにデプロイされたレガシー値は、誤作動する可能性があります。問題には、以下が含まれます。
- リーフバケット内の少数のデバイスを持つ階層では、PG の一部マップは、必要なレプリカ数より少なく済みます。これは通常、それぞれ 1 つのうちの OSD をネスト化した数 (1-3) のノードにホストノードで階層が起こります。
- 大規模なクラスターの場合、必要な数の OSD よりも小さいために PG マップの割合 (パーセント) です。これは、階層のレイヤーが複数ある場合に広く使われます。たとえば、行、ラック、ホスト、osd などです。
- OSD の一部にマークが付けられると、階層全体がではなく、OSD に再配布される傾向があります。
Red Hat では、CRUSH の調整可能パラメーターを利用するために、Ceph クライアントと Ceph デーモンの両方を主要なサポートされるリリースにアップグレードすることを強く推奨します。Red Hat は、すべてのクラスターデーモンおよびクライアントが同じリリースバージョンを使用することを推奨しています。
Argonaut (レガシー)
これは、Ceph の最初にサポートされる最初のリリースです。
バージョン要件
- Ceph 0.48、0.49 以降
- RBD カーネルクライアントを含む Linux カーネル 3.6 以降
サポートされている、CRUSH の調整可能パラメーター:
-
choose_local_tries
: ローカル再試行の数。レガシー値は 2 で、最適な値は 0 です。 -
choose_local_fallback_tries
: レガシー値は 5 で、最適値は 0 です。 -
choose_total_tries
: アイテムの選択試行回数の合計。レガシー値は 19 であり、後続のテストは通常のクラスターに対して 50 の値がより適していることを示します。非常に大きなクラスターの場合、大きな値が必要になる場合があります。
-
Bobtail
バージョン要件
- Ceph 0.55、0.56.x 以降
- RBD カーネルクライアントを含む Linux カーネル 3.9 以降
サポートされている、CRUSH の調整可能パラメーター:
-
chooseleaf_descend_once
: 再帰的な chooseleaf の試行で再試行するか、1 回だけ試行して、元の配置の再試行を許可するか。レガシーのデフォルト値は 0 で、最適な値は 1 です。
-
firefly
これは、Red Hat がサポートする最初の Ceph バージョンです。
バージョン要件
- Red Hat Ceph Storage 1.2.3 以降
- RBD カーネルクライアントを含む Linux カーネル 7.1 以降
サポートされている、CRUSH の調整可能パラメーター:
-
chooseleaf_vary_r
: 親がすでに行った試行回数に基づいて、再帰的な chooseleaf 試行がゼロ以外の値の r で開始するかどうか。レガシーデフォルト値は 0 ですが、この値 CRUSH は時折マッピングを見つけられません。計算費や正確性の面での最適な値は 1 です。ただし、既存データが多数あるレガシークラスターの場合、0 から 1 に変更すると、多くのデータが移動します。4 または 5 の値により、CRUSH が有効なマッピングを検索できますが、データの移動は少なくなります。 -
straw_calc_version
: ストローバケットの CRUSH マップで計算および保存される内部重みにいくつかの問題がありました。具体的には、CRUSH の重み 0 が指定された項目がある場合、または重みと重複した CRUSH の両方がデータを不適切に分散している場合、これは重みに比例していません。0 の値は以前の内部加重計算を保持します。1 の値は動作を修正します。straw_calc_version
を 1 に設定し、アイテムの追加、削除、再重み付けを行うか、reweight-all コマンドを使用して straw バケットを調整すると、クラスターが問題のある状態のいずれかに到達した場合は、データ移動の量を軽減するよう小規模にトリガーできます。この調整可能なオプションは、クライアント側で必要なカーネルバージョンに全く影響を及ぼさないため、特別なものです。
-
hammer
hammer
調整可能なプロファイルは、調整可能なプロファイルを変更するだけで、既存の CRUSH マップのマッピングには影響しませんが、新規のバケットタイプ straw2
がサポートされるようになりました。
バージョン要件
- Red Hat Ceph Storage 1.3 以降
- RBD カーネルクライアントを含む Linux カーネル 7.1 以降
新しいバケットタイプ:
-
新しい
straw2
バケットタイプは、元の straw バケットのいくつかの制限を修正します。具体的には、古い straw バケットは重みの調整時に変更する必要のある一部のマッピングを変更し、straw2 バケットは重みが変更されたバケット項目に対して、またはここからのマッピングのみを変更するという元の目的を達成します。straw2
バケットは、新規に作成されたすべてのバケットのデフォルトです。バケットタイプの straw から straw2 への変更により、どの程度バケット項目の重みが相互に異なるかに応じてデータの移動が小さくなります。加重がすべて同じデータで移動しない場合、アイテムの加重が大きく異なる場合は、より多くの移動が必要になります。
-
新しい
Jewel
Red Hat Ceph Storage 2 は Red Hat Enterprise Linux 7.2 以降でサポートされていますが、jewel
調整可能なプロファイルは Red Hat Enterprise Linux 7.3 以降でのみサポートされます。jewel
調整可能なプロファイルは、CRUSH の全体的な動作を改善します。これにより、OSD のマークが付けられる際にマッピングの変更が大幅に削減されます。
バージョン要件
- Red Hat Ceph Storage 2 以降
- RBD カーネルクライアントおよび CephFS カーネルクライアントを含む Red Hat Enterprise Linux 7.3 以降
サポートされている、CRUSH の調整可能パラメーター:
-
chooseleaf_stable
: 再帰的な chooseleaf の試行で、OSD がマークアウトされたときのマッピング変更の数を大幅に減らす内部ループにより良い値を使用するかどうか。レガシー値は 0 で、新しい値は 1 で新しいアプローチを使用します。既存クラスターのこの値を変更すると、ほとんどの場合で PG マッピングが変更される可能性が高いため、データの移動が非常に高くなります。
-
2.8.2. CRUSH のチューニング
CRUSH を調整する前に、すべての Ceph クライアントおよびすべての Ceph デーモンが同じバージョンを使用するようにする必要があります。最近アップグレードした場合は、デーモンを再起動して、クライアントを再接続していることを確認します。
CRUSH パラメーターを調整する最も簡単な方法は、既知のプロファイルに変更します。以下のとおりです。
-
legacy
: v0.47 (pre-Argonaut) 以前のバージョンのレガシー動作。 -
argonaut
: v0.48 (Argonaut) リリースがサポートするレガシーの値。 -
bobtail
: v0.56 (Bobtail) リリースでサポートされる値。 -
firefly
: 0.80 (Firefly) リリースでサポートされる値。 -
hammer
: v0.94 (Hammer) リリースでサポートされる値。 -
jewel
: v10.0.2 (Jewel) リリースでサポートされる値。 -
optimal
: 現在の最適値 -
default
: 新規クラスターの現在のデフォルト値。
実行中のクラスターでプロファイルを選択するには、以下のコマンドを実行します。
# ceph osd crush tunables <profile>
これにより、データの移動が生じる場合があります。
通常、アップグレード後に CRUSH パラメーターを設定するか、警告が表示されるようにする必要があります。バージョン v0.74 以降では、CRUSH パラメーターが最適な値に設定されていない場合に、Ceph は健全性についての警告を発行します。最適な値は v0.73 のデフォルトになります。この警告を外すには、2 つのオプションがあります。
既存クラスターの調整可能パラメーターを調整します。この結果、データの移動 (10% の可能性) が生じます。これは優先されるルートですが、データの移動がパフォーマンスに影響する可能性があります。以下を使用して、最適なチューニング可能なパラメーターを有効にできます。
# ceph osd crush tunables optimal
パフォーマンスの低下が悪い場合 (たとえば、負荷が非常に多い) か、非常に進捗が行われたか、クライアントの互換性の問題 (カーネルの cephfs または rbd クライアント、または pre-bobtail librados クライアント) がある場合には、以前のプロファイルに戻すことができます。
# ceph osd crush tunables <profile>
たとえば、pre-v0.48 (Argonaut) 値を復元するには、以下のコマンドを実行します。
# ceph osd crush tunables legacy
以下のオプションを、
ceph.conf
ファイルの[mon]
セクションに追加すると、CRUSH に変更を加えずに警告を離れることができます。mon warn on legacy crush tunables = false
変更を有効にするには、モニターを再起動するか、オプションを適用してモニターを実行します。
# ceph tell mon.\* injectargs --no-mon-warn-on-legacy-crush-tunables
2.8.3. CRUSH のチューニング (難しい方法)
すべてのクライアントが最新のコードを実行していることを確認できる場合は、CRUSH マップを抽出して値を変更し、これをクラスターへ再ミラーリングすることで、調整可能パラメーターを調整できます。
最新の CRUSH マップを抽出します。
ceph osd getcrushmap -o /tmp/crush
調整可能パラメーターの調整を行います。これらの値は、テストした大規模なクラスターと小規模なクラスターの両方に最適な動作を提供するように見えます。このコマンドが機能するには、
crushtool
に--enable-unsafe-tunables
引数も指定する必要があります。このオプションは細心の注意:crushtool -i /tmp/crush --set-choose-local-tries 0 --set-choose-local-fallback-tries 0 --set-choose-total-tries 50 -o /tmp/crush.new
変更したマップの再インジェクト:
ceph osd setcrushmap -i /tmp/crush.new
2.8.4. レガシー値
詳細は、CRUSH 調整可能パラメーターのレガシー値を設定できます。
crushtool -i /tmp/crush --set-choose-local-tries 2 --set-choose-local-fallback-tries 5 --set-choose-total-tries 19 --set-chooseleaf-descend-once 0 --set-chooseleaf-vary-r 0 -o /tmp/crush.legacy
ここでも、特別な --enable-unsafe-tunables
オプションが必要になります。さらに、上記のように、機能ビットが完全に適用されていないため、レガシー値に戻した後、古いバージョンの ceph-osd
デーモンを実行する場合は注意が必要です。