ホーム
製品
OpenShift Container Platform
4.20
Machine management
第7章 OpenShift Container Platform クラスターへの自動スケーリングの適用

第7章 OpenShift Container Platform クラスターへの自動スケーリングの適用

OpenShift Container Platform クラスターに自動スケーリングを適用して、デプロイメントのニーズに合わせてクラスターのサイズを自動的に調整します。Cluster Autoscaler をデプロイしてから、クラスター内のマシンタイプごとにマシンオートスケーラーをデプロイできます。Cluster Autoscaler の設定後に、1 つ以上の Machine Autoscaler を設定する必要があります。

重要

Cluster Autoscaler は、Machine API Operator が動作しているクラスターでのみ設定できます。

7.1. Cluster Autoscaler について
リンクのコピー

Cluster Autoscaler は、現行のデプロイメントのニーズに合わせて OpenShift Container Platform クラスターのサイズを調整します。これは、Kubernetes 形式の宣言引数を使用して、特定のクラウドプロバイダーのオブジェクトに依存しないインフラストラクチャー管理を提供します。Cluster Autoscaler には cluster スコープがあり、特定の namespace には関連付けられていません。

Cluster Autoscaler は、リソース不足のために現在のワーカーノードのいずれにもスケジュールできない Pod がある場合や、デプロイメントのニーズを満たすために別のノードが必要な場合に、クラスターのサイズを拡大します。Cluster Autoscaler は、指定される制限を超えてクラスターリソースを拡大することはありません。

Cluster Autoscaler は、コントロールプレーンノードを管理しない場合でも、クラスター内のすべてのノードのメモリー、CPU、および GPU の合計を計算します。これらの値は、単一マシン指向ではありません。これらは、クラスター全体での全リソースの集約です。たとえば、最大メモリーリソースの制限を設定する場合、Cluster Autoscaler は現在のメモリー使用量を計算する際にクラスター内のすべてのノードを含めます。この計算は、Cluster Autoscaler にワーカーリソースを追加する容量があるかどうかを判別するために使用されます。

重要

作成する ClusterAutoscaler リソース定義の maxNodesTotal 値が、クラスター内のマシンの想定される合計数に対応するのに十分な大きさの値であることを確認します。この値は、コントロールプレーンマシンの数とスケーリングする可能性のあるコンピュートマシンの数に対応できる値である必要があります。

7.1.1. 自動ノード削除
リンクのコピー

Cluster Autoscaler は 10 秒ごとにクラスター内の不要なノードをチェックし、そのノードを削除します。Cluster Autoscaler は、次の条件が当てはまる場合に、ノードを削除対象とみなします。

ノード使用率が、クラスターの ノード使用率 レベルのしきい値を下回っている。ノード使用率レベルとは、要求されたリソースの合計をノードに割り当てられたリソースで除算したものです。ClusterAutoscaler カスタムリソースで値が指定されいない場合、Cluster Autoscaler はデフォルト値の 0.5 を使用します。これは 50% の使用率に相当します。
Cluster Autoscaler が、ノード上で実行されているすべての Pod を他のノードに移動できる。Kubernetes スケジューラーは、ノード上の Pod のスケジュールを担当します。
Cluster Autoscaler に、スケールダウンを無効にするアノテーションがない。

ノードに次のタイプの Pod が存在する場合、Cluster Autoscaler はノードを削除しません。

制限のある Pod Disruption Budget を持つ Pod。
デフォルトでノードで実行されない kube-system Pod。
PDB を持たないか、制限が厳しい PDB を持つ kube-system Pod。
デプロイメント、レプリカセット、またはステートフルセットなどのコントローラーオブジェクトによってサポートされない Pod。
ローカルストレージを持つ Pod。
リソース不足、互換性のないノードセレクターまたはアフィニティー、アンチアフィニティーの一致などの理由で、他の場所に移動できない Pod。
それらに "cluster-autoscaler.kubernetes.io/safe-to-evict": "true" アノテーションがない場合、"cluster-autoscaler.kubernetes.io/safe-to-evict": "false" アノテーションを持つ Pod。

たとえば、CPU の上限を 64 コアに設定し、それぞれ 8 コアのマシンのみを作成するように Cluster Autoscaler を設定したとします。クラスターが 30 コアで起動した場合、Cluster Autoscaler はさらに最大 4 ノードを追加して 32 コアを増やし、合計 62 コアにすることができます。

7.1.2. 制限事項
リンクのコピー

Cluster Autoscaler を設定する場合は、使用に関する追加の制限が適用されます。

自動スケーリングされたノードグループにあるノードを直接変更しないようにしてください。同じノードグループ内のすべてのノードには同じ容量およびラベルがあり、同じシステム Pod を実行します。
Pod の要求を指定します。
Pod がすぐに削除されるのを防ぐ必要がある場合、適切な PDB を設定します。
クラウドプロバイダーのクォータが、設定する最大のノードプールに対応できる十分な大きさであることを確認します。
クラウドプロバイダーで提供されるものなどの、追加のノードグループの Autoscaler を実行しないようにしてください。

注記

Cluster Autoscaler が自動スケーリング対象のノードグループにノードを追加するのは、その追加によって Pod がスケジュール可能になる場合に限られます。利用可能なノードタイプが Pod 要求の要件を満たすことができない場合、またはその要件を満たすことができるノードグループが最大サイズに達している場合、Cluster Autoscaler はスケールアップできません。

7.1.3. 他のスケジュール機能との連携
リンクのコピー

Horizontal Pod Autoscaler (HPA) と Cluster Autoscaler は、異なる方法でクラスターリソースを変更します。HPA は、現在の CPU 負荷に基づいてデプロイメント、またはレプリカセットのレプリカ数を変更します。負荷が増大すると、HPA はクラスターで利用できるリソース量に関係なく、新規レプリカを作成します。リソースが不足している場合、Cluster Autoscaler は、HPA によって作成された Pod が実行できるようにリソースを追加します。負荷が減少する場合、HPA は一部のレプリカを停止します。この動作によってノードの使用率が低下するか、ノードが完全に空になった場合、Cluster Autoscaler は不要なノードを削除します。

Cluster Autoscaler は Pod の優先度を考慮します。Pod の優先度とプリエンプション機能を使用すると、クラスターに十分なリソースがない場合に優先度に基づいて Pod をスケジュールできますが、Cluster Autoscaler により、クラスターにすべての Pod を実行するためのリソースが確保されます。両方の機能の意図を反映するために、Cluster Autoscaler には、優先度のカットオフ機能が搭載されています。このカットオフ機能を使用すると、"ベストエフォート" の Pod をスケジュールできます。この Pod は、Cluster Autoscaler によるリソースの増加を引き起こすことなく、予備のリソースが利用可能な場合にのみ実行されます。

カットオフ値よりも低い優先度を持つ Pod は、クラスターのスケールアップを引き起さず、クラスターのスケールダウンを妨げることもありません。これらの Pod を実行するために新規ノードは追加されず、これらの Pod を実行しているノードはリソースを解放するために削除される可能性があります。

7.1.4. Cluster Autoscaler リソース定義
リンクのコピー

次の ClusterAutoscaler リソース定義に、Cluster Autoscaler のパラメーターとサンプル値を示します。

注記

既存の Cluster Autoscaler の設定を変更すると、Cluster Autoscaler が再起動します。

apiVersion: "autoscaling.openshift.io/v1"
kind: "ClusterAutoscaler"
metadata:
  name: "default"
spec:
  podPriorityThreshold: -10
  resourceLimits:
    maxNodesTotal: 24
    cores:
      min: 8
      max: 128
    memory:
      min: 4
      max: 256
    gpus:
    - type: <gpu_type>
      min: 0
      max: 16
  logVerbosity: 4
  scaleDown:
    enabled: true
    delayAfterAdd: 10m
    delayAfterDelete: 5m
    delayAfterFailure: 30s
    unneededTime: 5m
    utilizationThreshold: "0.4"
  scaleUp:
    newPodScaleUpDelay: "10s"
  expanders: ["Random"]

Expand

表7.1 Cluster Autoscaler パラメーター
パラメーター	説明
`podPriorityThreshold`	Cluster Autoscaler に追加のノードをデプロイさせるために Pod が超えている必要のある優先順位を指定します。32 ビットの整数値を入力します。`podPriorityThreshold` 値は、各 Pod に割り当てる `PriorityClass` の値と比較されます。
`maxNodesTotal`	デプロイするノードの最大数を指定します。この値は、Autoscaler が制御するマシンだけでなく、クラスターにデプロイされるマシンの合計数です。この値は、すべてのコントロールプレーンおよびコンピュートマシン、および `MachineAutoscaler` リソースに指定するレプリカの合計数に対応するのに十分な大きさの値であることを確認します。
`cores.min`	クラスターにデプロイするコアの最小数を指定します。
`cores.max`	クラスターにデプロイするコアの最大数を指定します。
`memory.min`	クラスターのメモリーの最小量 (GiB 単位) を指定します。
`memory.max`	クラスターのメモリーの最大量 (GiB 単位) を指定します。
`gpus.type`	オプション: GPU 対応ノードをデプロイするように Cluster Autoscaler を設定するには、`type` 値を指定します。この値は、そのタイプの GPU 対応ノードを管理するマシンセット内の `spec.template.spec.metadata.labels[cluster-api/accelerator]` ラベルの値と一致する必要があります。たとえば、この値は、Nvidia T4 GPU を表す場合は `nvidia-t4`、A10G GPU を表す場合は `nvidia-a10g` になります。詳細は、「Cluster Autoscaler 用の GPU マシンセットのラベル付け」を参照してください。
`gpus.min`	クラスターにデプロイする指定タイプの GPU の最小数を指定します。
`gpus.max`	クラスターにデプロイする指定タイプの GPU の最大数を指定します。
`logVerbosity`	ロギングの詳細レベルを `0` から `10` の間で指定します。次のログレベルのしきい値は、ガイダンスとして提供されています。 `1`: (デフォルト) 変更に関する基本情報。 `4`: 一般的な問題をトラブルシューティングするためのデバッグレベルの詳細度。 `9`: 広範なプロトコルレベルのデバッグ情報。値を指定しない場合は、デフォルト値の `1` が使用されます。
`scaleDown`	このセクションでは、有効な ParseDuration 期間 ( `ns`、`us`、`ms`、`s`、`m`、および `h` を含む) を使用して各アクションに、待機する期間を指定できます。
`scaleDown.enabled`	Cluster Autoscaler が不必要なノードを削除できるかどうかを指定します。
`scaleDown.delayAfterAdd`	オプション: ノードが最後に追加されてからノードを削除するまで待機する期間を指定します。値を指定しない場合、デフォルト値の `10m` が使用されます。
`scaleDown.delayAfterDelete`	オプション: ノードが最後に削除されてからノードを削除するまで待機する期間を指定します。値を指定しない場合、デフォルト値の `0s` が使用されます。
`scaleDown.delayAfterFailure`	オプション: スケールダウンが失敗してからノードを削除するまで待機する期間を指定します。値を指定しない場合、デフォルト値の `3m` が使用されます。
`scaleDown.unneededTime`	オプション: 不要なノードが削除の対象となるまでの期間を指定します。値を指定しない場合、デフォルト値の `10m` が使用されます。
`scaleDown.utilizationThreshold`	オプション: node utilization level を指定します。この使用率レベルを下回るノードは、削除の対象となります。ノード使用率は、要求されたリソースをそのノードに割り当てられたリソースで割ったもので、`"0"` より大きく `"1"` より小さい値でなければなりません。値を指定しない場合、Cluster Autoscaler は 50% の使用率に対応するデフォルト値 `"0.5"` を使用します。この値は文字列として表現する必要があります。
`scaleUp`	このセクションでは、新たに保留中となった Pod を認識するまでの待機期間を、有効な ParseDuration 間隔 (`ns`、`us`、`ms`、`s`、`m`、`h` など) を使用して指定できます。
`scaleUp.newPodScaleUpDelay`	オプション: 新しいノードを追加する前に、スケジュール不可能な新しい Pod を無視する期間を指定します。値を指定しない場合、デフォルト値の `0s` が使用されます。
`expanders`	オプション: Cluster Autoscaler で使用するエクスパンダーを指定します。次の値が有効です。 `LeastWaste` : スケーリング後にアイドル CPU を最小限に抑えるマシンセットを選択します。複数のマシンセットで同じ量のアイドル CPU が生成される場合、選択によって未使用のメモリーが最小限に抑えられます。 `Priority`: ユーザーが割り当てた優先度が最も高いマシンセットを選択します。このエクスパンダーを使用するには、マシンセットの優先順位を定義する config map を作成する必要があります。詳細は、「Cluster Autoscaler の優先度エクスパンダーの設定」を参照してください。 `Random`: (デフォルト) マシンセットをランダムに選択します。値を指定しない場合は、デフォルト値 `Random` が使用されます。 `[LeastWaste, Priority]` 形式を使用して複数のエクスパンダーを指定できます。Cluster Autoscaler は、指定された順序に従って各エクスパンダーを適用します。 `[LeastWaste, Priority]` の例では、Cluster Autoscaler は最初に `LeastWaste` 基準に従って評価します。複数のマシンセットが `LeastWaste` 基準を同等に満たしている場合、Cluster Autoscaler は `Priority` 基準に従って評価します。複数のマシンセットが指定されたエクスパンダーのすべてを同等に満たす場合、Cluster Autoscaler はランダムに 1 つを選択して使用します。

注記

スケーリング操作の実行時に、Cluster Autoscaler は、デプロイするコアの最小および最大数、またはクラスター内のメモリー量などの ClusterAutoscaler リソース定義に設定された範囲内に残ります。ただし、Cluster Autoscaler はそれらの範囲内に留まるようクラスターの現在の値を修正しません。

Cluster Autoscaler がノードを管理しない場合でも、最小および最大の CPU、メモリー、および GPU の値は、クラスター内のすべてのノードのこれらのリソースを計算することによって決定されます。たとえば、Cluster Autoscaler がコントロールプレーンノードを管理しない場合でも、コントロールプレーンノードはクラスターのメモリーの合計に考慮されます。

7.1.5. Cluster Autoscaler の優先度エクスパンダーの設定
リンクのコピー

Cluster Autoscaler がクラスターのサイズを増やすときにどのマシンセットを拡張するかを制御するために、優先度エクスパンダーを設定します。優先度の値と、マシンセットを定義する正規表現をリストすることで、優先度エクスパンダー config map を作成できます。

前提条件

Machine API を使用する OpenShift Container Platform クラスターをデプロイしている。
cluster-admin 権限を持つアカウントを使用してクラスターにアクセスできる。
OpenShift CLI (oc) がインストールされている。

手順

以下のコマンドを実行して、クラスター内のコンピュートマシンセットをリスト表示します。

$ oc get machinesets.machine.openshift.io

出力例

NAME                                        DESIRED   CURRENT   READY   AVAILABLE   AGE
archive-agl030519-vplxk-worker-us-east-1c   1         1         1       1           25m
fast-01-agl030519-vplxk-worker-us-east-1a   1         1         1       1           55m
fast-02-agl030519-vplxk-worker-us-east-1a   1         1         1       1           55m
fast-03-agl030519-vplxk-worker-us-east-1b   1         1         1       1           55m
fast-04-agl030519-vplxk-worker-us-east-1b   1         1         1       1           55m
prod-01-agl030519-vplxk-worker-us-east-1a   1         1         1       1           33m
prod-02-agl030519-vplxk-worker-us-east-1c   1         1         1       1           33m

正規表現を使用して、優先レベルを設定するコンピュートマシンセットの名前に一致する 1 つ以上のパターンを作成します。
たとえば、名前に文字列 fast が含まれるすべてのコンピュートマシンセットに一致させるには、正規表現パターン *fast* を使用します。
次のように config map を定義する cluster-autoscaler-priority-expander.yml YAML ファイルを作成します。
優先度エクスパンダー config map の例
```
apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-autoscaler-priority-expander
  namespace: openshift-machine-api
data:
  priorities: |-
    10:
      - .*fast.*
      - .*archive.*
    40:
      - .*prod.*
```
マシンセットの優先順位を定義します。priorities の値は正の整数である必要があります。Cluster Autoscaler は、値の低い優先度の前に値の大きい優先度を使用します。優先度レベルごとに、使用するマシンセットに対応する正規表現を指定します。

以下のコマンドを実行して config map を作成します。

$ oc create configmap cluster-autoscaler-priority-expander \
  --from-file=<location_of_config_map_file>/cluster-autoscaler-priority-expander.yml

検証

以下のコマンドを実行して config map を確認します。
```
$ oc get configmaps cluster-autoscaler-priority-expander -o yaml
```

次のステップ

優先度エクスパンダーを使用するには、ClusterAutoscaler リソース定義が expanders: ["Priority"] パラメーターを使用するように設定されていることを確認します。

7.1.6. Cluster Autoscaler 用の GPU マシンセットのラベル付け
リンクのコピー

クラスターオートスケーラーが GPU 対応ノードに使用できるマシンを示すために、マシンセットにラベルを付けてください。アクセラレーターラベルを適用することで、オートスケーラーが GPU ワークロードに適したリソースを確実にデプロイできるようになります。

前提条件

クラスターが Cluster Autoscaler を使用している。

手順

Cluster Autoscaler が GPU 対応ノードのデプロイに使用するマシンを作成するのに必要なマシンセットに、cluster-api/accelerator ラベルを追加します。
```
apiVersion: machine.openshift.io/v1beta1
kind: MachineSet
metadata:
  name: machine-set-name
spec:
  template:
    spec:
      metadata:
        labels:
          cluster-api/accelerator: <accelerator_name>
```
ここでは、以下のようになります。
<accelerator_name>
英数字、-、_、. で構成され、先頭と末尾が英数字であるラベルを指定します。たとえば、Nvidia T4 GPU を表すには nvidia-t4 を使用し、A10G GPU を表すには nvidia-a10g を使用します。
注記
ClusterAutoscaler CR の spec.resourceLimits.gpus.type パラメーターにこのラベルの値を指定する必要があります。詳細は、「Cluster Autoscaler リソース定義」を参照してください。

7.1.7. Cluster Autoscaler のデプロイ
リンクのコピー

Cluster Autoscaler をデプロイするには、ClusterAutoscaler リソースのインスタンスを作成します。

手順

カスタムリソース定義を含む ClusterAutoscaler リソースの YAML ファイルを作成します。
以下のコマンドを実行して、クラスター内にカスタムリソースを作成します。
```
$ oc create -f <filename>.yaml
```
ここでは、以下のようになります。
<filename>
作成した YAML ファイルの名前を指定します。

第7章 OpenShift Container Platform クラスターへの自動スケーリングの適用

7.1. Cluster Autoscaler について
リンクのコピー

7.1.1. 自動ノード削除
リンクのコピー

7.1.2. 制限事項
リンクのコピー

7.1.3. 他のスケジュール機能との連携
リンクのコピー

7.1.4. Cluster Autoscaler リソース定義
リンクのコピー

7.1.5. Cluster Autoscaler の優先度エクスパンダーの設定
リンクのコピー

7.1.6. Cluster Autoscaler 用の GPU マシンセットのラベル付け
リンクのコピー

7.1.7. Cluster Autoscaler のデプロイ
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第7章 OpenShift Container Platform クラスターへの自動スケーリングの適用

7.1. Cluster Autoscaler についてリンクのコピーリンクがクリップボードにコピーされました!

7.1.1. 自動ノード削除リンクのコピーリンクがクリップボードにコピーされました!

7.1.2. 制限事項リンクのコピーリンクがクリップボードにコピーされました!

7.1.3. 他のスケジュール機能との連携リンクのコピーリンクがクリップボードにコピーされました!

7.1.4. Cluster Autoscaler リソース定義リンクのコピーリンクがクリップボードにコピーされました!

7.1.5. Cluster Autoscaler の優先度エクスパンダーの設定リンクのコピーリンクがクリップボードにコピーされました!

7.1.6. Cluster Autoscaler 用の GPU マシンセットのラベル付けリンクのコピーリンクがクリップボードにコピーされました!

7.1.7. Cluster Autoscaler のデプロイリンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

会社概要

多様性を受け入れるオープンソースの強化

Red Hat ドキュメントについて

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.1. Cluster Autoscaler について
リンクのコピー

7.1.1. 自動ノード削除
リンクのコピー

7.1.2. 制限事項
リンクのコピー

7.1.3. 他のスケジュール機能との連携
リンクのコピー

7.1.4. Cluster Autoscaler リソース定義
リンクのコピー

7.1.5. Cluster Autoscaler の優先度エクスパンダーの設定
リンクのコピー

7.1.6. Cluster Autoscaler 用の GPU マシンセットのラベル付け
リンクのコピー

7.1.7. Cluster Autoscaler のデプロイ
リンクのコピー