第7章 OpenShift Container Platform クラスターへの自動スケーリングの適用

自動スケーリングの OpenShift Container Platform クラスターへの適用には、クラスターへの Cluster Autoscaler のデプロイと各マシンタイプの Machine Autoscaler のデプロイが必要です。

重要

Cluster Autoscaler は、Machine API Operator が動作しているクラスターでのみ設定できます。

7.1. Cluster Autoscaler について

Cluster Autoscaler は、現行のデプロイメントのニーズに合わせて OpenShift Container Platform クラスターのサイズを調整します。これは、Kubernetes 形式の宣言引数を使用して、特定のクラウドプロバイダーのオブジェクトに依存しないインフラストラクチャー管理を提供します。Cluster Autoscaler には cluster スコープがあり、特定の namespace には関連付けられていません。

Cluster Autoscaler は、リソース不足のために現在のワーカーノードのいずれにもスケジュールできない Pod がある場合や、デプロイメントのニーズを満たすために別のノードが必要な場合に、クラスターのサイズを拡大します。Cluster Autoscaler は、指定される制限を超えてクラスターリソースを拡大することはありません。

Cluster Autoscaler は、コントロールプレーンノードを管理しない場合でも、クラスター内のすべてのノードのメモリー、CPU、および GPU の合計を計算します。これらの値は、単一マシン指向ではありません。これらは、クラスター全体での全リソースの集約です。たとえば、最大メモリーリソースの制限を設定する場合、Cluster Autoscaler は現在のメモリー使用量を計算する際にクラスター内のすべてのノードを含めます。この計算は、Cluster Autoscaler にワーカーリソースを追加する容量があるかどうかを判別するために使用されます。

重要

作成する ClusterAutoscaler リソース定義の maxNodesTotal 値が、クラスター内のマシンの想定される合計数に対応するのに十分な大きさの値であることを確認します。この値は、コントロールプレーンマシンの数とスケーリングする可能性のあるコンピュートマシンの数に対応できる値である必要があります。

自動ノード削除

Cluster Autoscaler は 10 秒ごとに、クラスターで不要なノードをチェックし、それらを削除します。Cluster Autoscaler は、以下の条件が適用される場合に、ノードを削除すべきと考えます。

ノードの使用率はクラスターの ノード使用率レベル のしきい値よりも低い場合。ノード使用率レベルとは、要求されたリソースの合計をノードに割り当てられたリソースで除算したものです。ClusterAutoscaler カスタムリソースで値を指定しない場合、Cluster Autoscaler は 50% の使用率に対応するデフォルト値 0.5 を使用します。
Cluster Autoscaler がノードで実行されているすべての Pod を他のノードに移動できる。Kubernetes スケジューラーは、ノード上の Pod のスケジュールを担当します。
Cluster Autoscaler で、スケールダウンが無効にされたアノテーションがない。

以下のタイプの Pod がノードにある場合、Cluster Autoscaler はそのノードを削除しません。

制限のある Pod の Disruption Budget (停止状態の予算、PDB) を持つ Pod。
デフォルトでノードで実行されない Kube システム Pod。
PDB を持たないか、制限が厳しい PDB を持つ Kuber システム Pod。
デプロイメント、レプリカセット、またはステートフルセットなどのコントローラーオブジェクトによってサポートされない Pod。
ローカルストレージを持つ Pod。
リソース不足、互換性のないノードセレクターまたはアフィニティー、一致する非アフィニティーなどにより他の場所に移動できない Pod。
それらに "cluster-autoscaler.kubernetes.io/safe-to-evict": "true" アノテーションがない場合、"cluster-autoscaler.kubernetes.io/safe-to-evict": "false" アノテーションを持つ Pod。

たとえば、CPU の上限を 64 コアに設定し、それぞれ 8 コアを持つマシンのみを作成するように Cluster Autoscaler を設定したとします。クラスターが 30 コアで起動する場合、Cluster Autoscaler は最大で 4 つのノード (合計 32 コア) を追加できます。この場合、総計は 62 コアになります。

制限

Cluster Autoscaler を設定する場合は、使用に関する追加の制限が適用されます。

自動スケーリングされたノードグループにあるノードを直接変更しないようにしてください。同じノードグループ内のすべてのノードには同じ容量およびラベルがあり、同じシステム Pod を実行します。
Pod の要求を指定します。
Pod がすぐに削除されるのを防ぐ必要がある場合、適切な PDB を設定します。
クラウドプロバイダーのクォータが、設定する最大のノードプールに対応できる十分な大きさであることを確認します。
クラウドプロバイダーで提供されるものなどの、追加のノードグループの Autoscaler を実行しないようにしてください。

注記

クラスターオートスケーラーは、スケジュール可能な Pod が作成される場合にのみ、自動スケーリングされたノードグループにノードを追加します。利用可能なノードタイプが Pod 要求の要件を満たすことができない場合、またはこれらの要件を満たすことができるノードグループが最大サイズに達している場合、クラスターオートスケーラーはスケールアップできません。

他のスケジュール機能との連携

Horizontal Pod Autoscaler (HPA) および Cluster Autoscaler は複数の異なる方法でクラスターリソースを変更します。HPA は、現在の CPU 負荷に基づいてデプロイメント、またはレプリカセットのレプリカ数を変更します。負荷が増大すると、HPA はクラスターで利用できるリソース量に関係なく、新規レプリカを作成します。十分なリソースがない場合、Cluster Autoscaler はリソースを追加し、HPA で作成された Pod が実行できるようにします。負荷が減少する場合、HPA は一部のレプリカを停止します。この動作によって一部のノードの使用率が低くなるか、完全に空になる場合、Cluster Autoscaler は不必要なノードを削除します。

Cluster Autoscaler は Pod の優先順位を考慮に入れます。Pod の優先順位とプリエンプション機能により、クラスターに十分なリソースがない場合に優先順位に基づいて Pod のスケジューリングを有効にできますが、Cluster Autoscaler はクラスターがすべての Pod を実行するのに必要なリソースを確保できます。これら両方の機能の意図を反映するべく、Cluster Autoscaler には優先順位のカットオフ機能が含まれています。このカットオフを使用して "Best Effort" の Pod をスケジュールできますが、これにより Cluster Autoscaler がリソースを増やすことはなく、余分なリソースがある場合にのみ実行されます。

カットオフ値よりも低い優先順位を持つ Pod は、クラスターをスケールアップせず、クラスターのスケールダウンを防ぐこともありません。これらの Pod を実行するために新規ノードは追加されず、これらの Pod を実行しているノードはリソースを解放するために削除される可能性があります。

7.1.1. Cluster Autoscaler の設定

まず Cluster Autoscaler をデプロイし、リソースの自動スケーリングを OpenShift Container Platform クラスターで管理します。

注記

Cluster Autoscaler のスコープはクラスター全体に設定されるため、クラスター用に 1 つの Cluster Autoscaler のみを作成できます。

7.1.1.1. Cluster Autoscaler リソース定義

次の ClusterAutoscaler リソース定義に、Cluster Autoscaler のパラメーターとサンプル値を示します。

注記

既存の Cluster Autoscaler の設定を変更すると、Cluster Autoscaler が再起動します。

apiVersion: "autoscaling.openshift.io/v1"
kind: "ClusterAutoscaler"
metadata:
  name: "default"
spec:
  podPriorityThreshold: -10 1
  resourceLimits:
    maxNodesTotal: 24 2
    cores:
      min: 8 3
      max: 128 4
    memory:
      min: 4 5
      max: 256 6
    gpus:
    - type: <gpu_type> 7
      min: 0 8
      max: 16 9
  logVerbosity: 4 10
  scaleDown: 11
    enabled: true 12
    delayAfterAdd: 10m 13
    delayAfterDelete: 5m 14
    delayAfterFailure: 30s 15
    unneededTime: 5m 16
    utilizationThreshold: "0.4" 17
  expanders: ["Random"] 18

1

Cluster Autoscaler に追加のノードをデプロイさせるために Pod が超えている必要のある優先順位を指定します。32 ビットの整数値を入力します。podPriorityThreshold 値は、各 Pod に割り当てる PriorityClass の値と比較されます。

2

デプロイするノードの最大数を指定します。この値は、Autoscaler が制御するマシンだけでなく、クラスターにデプロイされるマシンの合計数です。この値は、すべてのコントロールプレーンおよびコンピュートマシン、および MachineAutoscaler リソースに指定するレプリカの合計数に対応するのに十分な大きさの値であることを確認します。

3

クラスターにデプロイするコアの最小数を指定します。

4

クラスターにデプロイするコアの最大数を指定します。

5

クラスターのメモリーの最小量 (GiB 単位) を指定します。

6

クラスターのメモリーの最大量 (GiB 単位) を指定します。

7

オプション: GPU 対応ノードをデプロイするように Cluster Autoscaler を設定するには、type 値を指定します。この値は、そのタイプの GPU 対応ノードを管理するマシンセット内の spec.template.spec.metadata.labels[cluster-api/accelerator] ラベルの値と一致する必要があります。たとえば、この値は、Nvidia T4 GPU を表す場合は nvidia-t4、A10G GPU を表す場合は nvidia-a10g になります。詳細は、「Cluster Autoscaler 用の GPU マシンセットのラベル付け」を参照してください。

8

クラスターにデプロイする指定タイプの GPU の最小数を指定します。

9

クラスターにデプロイする指定タイプの GPU の最大数を指定します。

10

ロギングの詳細レベルを 0 から 10 の間で指定します。次のログレベルのしきい値は、ガイダンスとして提供されています。

1: (デフォルト) 変更に関する基本情報。
4: 一般的な問題をトラブルシューティングするためのデバッグレベルの詳細度。
9: 広範なプロトコルレベルのデバッグ情報。

値を指定しない場合は、デフォルト値の 1 が使用されます。

11

このセクションでは、有効な ParseDuration 期間 ( ns、us、ms、s、m、および h を含む) を使用して各アクションについて待機する期間を指定できます。

12

Cluster Autoscaler が不必要なノードを削除できるかどうかを指定します。

13

オプション: ノードが最後に追加されてからノードを削除するまで待機する期間を指定します。値を指定しない場合、デフォルト値の 10m が使用されます。

14

オプション: ノードが最後に削除されてからノードを削除するまで待機する期間を指定します。値を指定しない場合、デフォルト値の 0s が使用されます。

15

オプション: スケールダウンが失敗してからノードを削除するまで待機する期間を指定します。値を指定しない場合、デフォルト値の 3m が使用されます。

16

オプション: 不要なノードが削除の対象となるまでの期間を指定します。値を指定しない場合、デフォルト値の 10m が使用されます。

17

オプション: node utilization level を指定します。この使用率レベルを下回るノードは、削除の対象となります。

ノード使用率は、要求されたリソースをそのノードに割り当てられたリソースで割ったもので、"0" より大きく "1" より小さい値でなければなりません。値を指定しない場合、Cluster Autoscaler は 50% の使用率に対応するデフォルト値 "0.5" を使用します。この値は文字列として表現する必要があります。

18

オプション: クラスターオートスケーラーで使用するエクスパンダーを指定します。次の値が有効です。

LeastWaste : スケーリング後にアイドル CPU を最小限に抑えるマシンセットを選択します。複数のマシンセットで同じ量のアイドル CPU が生成される場合、選択によって未使用のメモリーが最小限に抑えられます。
Priority: ユーザーが割り当てた優先度が最も高いマシンセットを選択します。このエクスパンダーを使用するには、マシンセットの優先順位を定義する config map を作成する必要があります。詳細は、「クラスターオートスケーラーの優先度エクスパンダーの設定」を参照してください。
Random: (デフォルト) マシンセットをランダムに選択します。

値を指定しない場合は、デフォルト値 Random が使用されます。

[LeastWaste, Priority] 形式を使用して複数のエクスパンダーを指定できます。クラスターオートスケーラーは、指定された順序に従って各エクスパンダーを適用します。

[LeastWaste, Priority] の例では、クラスターオートスケーラーは最初に LeastWaste 基準に従って評価します。複数のマシンセットが LeastWaste 基準を同等に満たしている場合、クラスターオートスケーラーは Priority 基準に従って評価します。複数のマシンセットが指定されたエクスパンダーのすべてを同等に満たす場合、クラスターオートスケーラーはランダムに 1 つを選択して使用します。

注記

スケーリング操作の実行時に、Cluster Autoscaler は、デプロイするコアの最小および最大数、またはクラスター内のメモリー量などの ClusterAutoscaler リソース定義に設定された範囲内に残ります。ただし、Cluster Autoscaler はそれらの範囲内に留まるようクラスターの現在の値を修正しません。

Cluster Autoscaler がノードを管理しない場合でも、最小および最大の CPU、メモリー、および GPU の値は、クラスター内のすべてのノードのこれらのリソースを計算することによって決定されます。たとえば、Cluster Autoscaler がコントロールプレーンノードを管理しない場合でも、コントロールプレーンノードはクラスターのメモリーの合計に考慮されます。

7.1.1.2. クラスターオートスケーラーの優先度エクスパンダーの設定

クラスターオートスケーラーが優先度エクスパンダーを使用する場合、ユーザーが割り当てた優先度が最も高いマシンセットを使用してスケールアップします。このエクスパンダーを使用するには、マシンセットの優先順位を定義する config map を作成する必要があります。

指定された優先レベルごとに、マシンセットの選択の優先順位を付けるときに使用するマシンセットを識別するための正規表現を作成する必要があります。正規表現は、クラスターオートスケーラーが選択対象として考慮するコンピュートマシンセットの名前と一致する必要があります。

前提条件

Machine API を使用する OpenShift Container Platform クラスターをデプロイしている。
cluster-admin 権限を持つアカウントを使用してクラスターにアクセスできる。
OpenShift CLI (oc) がインストールされている。

手順

以下のコマンドを実行して、クラスター内のコンピュートマシンセットをリスト表示します。

$ oc get machinesets.machine.openshift.io

出力例

NAME                                        DESIRED   CURRENT   READY   AVAILABLE   AGE
archive-agl030519-vplxk-worker-us-east-1c   1         1         1       1           25m
fast-01-agl030519-vplxk-worker-us-east-1a   1         1         1       1           55m
fast-02-agl030519-vplxk-worker-us-east-1a   1         1         1       1           55m
fast-03-agl030519-vplxk-worker-us-east-1b   1         1         1       1           55m
fast-04-agl030519-vplxk-worker-us-east-1b   1         1         1       1           55m
prod-01-agl030519-vplxk-worker-us-east-1a   1         1         1       1           33m
prod-02-agl030519-vplxk-worker-us-east-1c   1         1         1       1           33m

正規表現を使用して、優先レベルを設定するコンピュートマシンセットの名前に一致する 1 つ以上のパターンを作成します。
たとえば、名前に文字列 fast が含まれるすべてのコンピュートマシンセットに一致させるには、正規表現パターン *fast* を使用します。
次のように config map を定義する cluster-autoscaler-priority-expander.yml YAML ファイルを作成します。
優先度エクスパンダー config map の例
```
apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-autoscaler-priority-expander 1
  namespace: openshift-machine-api 2
data:
  priorities: |- 3
    10:
      - .*fast.*
      - .*archive.*
    40:
      - .*prod.*
```
1
config map に cluster-autoscaler-priority-expander という名前を付ける必要があります。
2
クラスターオートスケーラー Pod と同じ namespace (openshift-machine-api namespace) に config map を作成する必要があります。
3
マシンセットの優先順位を定義します。
priorities の値は正の整数である必要があります。クラスターオートスケーラーは、値の低い優先度の前に値の大きい優先度を使用します。
優先度レベルごとに、使用するマシンセットに対応する正規表現を指定します。

以下のコマンドを実行して config map を作成します。

$ oc create configmap cluster-autoscaler-priority-expander \
  --from-file=<location_of_config_map_file>/cluster-autoscaler-priority-expander.yml

検証

以下のコマンドを実行して config map を確認します。
```
$ oc get configmaps cluster-autoscaler-priority-expander -o yaml
```

次のステップ

優先度エクスパンダーを使用するには、ClusterAutoscaler リソース定義が expanders: ["Priority"] パラメーターを使用するように設定されていることを確認します。

7.1.1.3. Cluster Autoscaler 用の GPU マシンセットのラベル付け

マシンセットラベルを使用すると、Cluster Autoscaler が GPU 対応ノードのデプロイに使用できるマシンを指定できます。

前提条件

クラスターが Cluster Autoscaler を使用している。

手順

Cluster Autoscaler が GPU 対応ノードのデプロイに使用するマシンを作成するのに必要なマシンセットに、cluster-api/accelerator ラベルを追加します。
```
apiVersion: machine.openshift.io/v1beta1
kind: MachineSet
metadata:
  name: machine-set-name
spec:
  template:
    spec:
      metadata:
        labels:
          cluster-api/accelerator: nvidia-t4 1
```
1
英数字、-、_、. で構成され、先頭と末尾が英数字であるラベルを指定します。たとえば、Nvidia T4 GPU を表すには nvidia-t4 を使用し、A10G GPU を表すには nvidia-a10g を使用します。
注記
ClusterAutoscaler CR の spec.resourceLimits.gpus.type パラメーターにこのラベルの値を指定する必要があります。詳細は、「Cluster Autoscaler リソース定義」を参照してください。

7.1.2. Cluster Autoscaler のデプロイ

Cluster Autoscaler をデプロイするには、ClusterAutoscaler リソースのインスタンスを作成します。

手順

カスタムリソース定義を含む ClusterAutoscaler リソースの YAML ファイルを作成します。
以下のコマンドを実行して、クラスター内にカスタムリソースを作成します。
```
$ oc create -f <filename>.yaml 1
```
1
<filename> はカスタムリソースファイルの名前です。

次のステップ

Cluster Autoscaler の設定後に、1 つ以上の Machine Autoscaler を設定する必要があります。

第7章 OpenShift Container Platform クラスターへの自動スケーリングの適用

7.1. Cluster Autoscaler について

自動ノード削除

制限

他のスケジュール機能との連携

7.1.1. Cluster Autoscaler の設定

7.1.1.1. Cluster Autoscaler リソース定義

7.1.1.2. クラスターオートスケーラーの優先度エクスパンダーの設定

7.1.1.3. Cluster Autoscaler 用の GPU マシンセットのラベル付け

7.1.2. Cluster Autoscaler のデプロイ

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Red Hat legal and privacy links

Red Hat legal and privacy links