3.3. 並行処理性
並行処理性は、特定の時点でアプリケーションの各レプリカが処理できる同時リクエストの数を決定します。並行処理性は、ソフトリミットまたはハードリミットのいずれかとして設定できます。
- ソフトリミットは、厳格に強制される限度ではなく、目標となるリクエストの限度です。たとえば、トラフィックの急増が発生した場合、ソフトリミットのターゲットを超過できます。
ハードリミットは、リクエストに対して厳密に適用される上限です。並行処理がハードリミットに達すると、それ以降のリクエストはバッファー処理され、リクエストを実行するのに十分な空き容量ができるまで待機する必要があります。
重要ハードリミット設定の使用は、アプリケーションに明確なユースケースがある場合にのみ推奨されます。ハードリミットを低い値に指定すると、アプリケーションのスループットとレイテンシーに悪影響を与える可能性があり、コールドスタートが発生する可能性があります。
ソフトターゲットとハードリミットを追加することは、Autoscaler は同時リクエストのソフトターゲット数を目標とするが、リクエストの最大数にハードリミット値のハードリミットを課すことを意味します。
ハードリミットの値がソフトリミットの値より小さい場合、実際に処理できる数よりも多くのリクエストを目標にする必要がないため、ソフトリミットの値が低減されます。
3.3.1. ソフト並行処理ターゲットの設定
ソフトリミットは、厳格に強制される限度ではなく、目標となるリクエストの限度です。たとえば、トラフィックの急増が発生した場合、ソフトリミットのターゲットを超過できます。autoscaling.knative.dev/target
アノテーションを仕様に設定するか、または正しいフラグを指定して kn service
コマンドを使用して、Knative サービスにソフト並行処理ターゲットを指定できます。
手順
オプション:
Service
カスタムリソースの仕様で Knative サービスにautoscaling.knative.dev/target
アノテーションを設定します。サービス仕様の例
apiVersion: serving.knative.dev/v1 kind: Service metadata: name: showcase namespace: default spec: template: metadata: annotations: autoscaling.knative.dev/target: "200"
オプション:
kn service
コマンドを使用して--concurrency-target
フラグを指定します。$ kn service create <service_name> --image <image_uri> --concurrency-target <integer>
並行処理のターゲットを 50 リクエストに設定したサービスを作成するコマンドの例
$ kn service create showcase --image quay.io/openshift-knative/showcase --concurrency-target 50
3.3.2. ハード並行処理リミットの設定
ハード並行処理リミットは、リクエストに対して厳密に適用される上限です。並行処理がハードリミットに達すると、それ以降のリクエストはバッファー処理され、リクエストを実行するのに十分な空き容量ができるまで待機する必要があります。containerConcurrency
仕様を変更するか、または正しいフラグを指定して kn service
コマンドを使用して、Knative サービスにハード並行処理リミットを指定できます。
手順
オプション:
Service
カスタムリソースの仕様で Knative サービスにcontainerConcurrency
仕様を設定します。サービス仕様の例
apiVersion: serving.knative.dev/v1 kind: Service metadata: name: showcase namespace: default spec: template: spec: containerConcurrency: 50
デフォルト値は
0
です。これは、サービスの 1 つのレプリカに一度に流れることができる同時リクエストの数に制限がないことを意味します。0
より大きい値は、サービスの 1 つのレプリカに一度に流れることができるリクエストの正確な数を指定します。この例では、50 リクエストのハード並行処理リミットを有効にします。オプション:
kn service
コマンドを使用して--concurrency-limit
フラグを指定します。$ kn service create <service_name> --image <image_uri> --concurrency-limit <integer>
並行処理のリミットを 50 リクエストに設定したサービスを作成するコマンドの例
$ kn service create showcase --image quay.io/openshift-knative/showcase --concurrency-limit 50
3.3.3. 並行処理ターゲットの使用率
この値は、Autoscaler が実際に目標とする並行処理リミットのパーセンテージを指定します。これは、レプリカが実行する ホット度 を指定することとも呼ばれます。これにより、Autoscaler は定義されたハードリミットに達する前にスケールアップできるようになります。
たとえば、containerConcurrency
値が 10 に設定され、target-utilization-percentage
値が 70% に設定されている場合、既存のすべてのレプリカの同時リクエストの平均数が 7 に達すると、オートスケーラーは新しいレプリカを作成します。7 から 10 の番号が付けられたリクエストは引き続き既存のレプリカに送信されますが、containerConcurrency
値に達した後、必要になることを見越して追加のレプリカが開始されます。
target-utilization-percentage アノテーションを使用して設定されたサービスの例
apiVersion: serving.knative.dev/v1 kind: Service metadata: name: showcase namespace: default spec: template: metadata: annotations: autoscaling.knative.dev/target-utilization-percentage: "70" ...