Red Hat OpenShift Service on AWS

指定 Prometheus 作为触发器类型。

指定 Prometheus 服务器的地址。本例使用 Red Hat OpenShift Service on AWS 监控。

可选：指定您要缩放的对象的命名空间。如果使用 Red Hat OpenShift Service on AWS 监控作为指标的源，则需要此参数。

指定在 external.metrics.k8s.io API 中标识指标的名称。如果您使用的是多个触发器，则所有指标名称都必须是唯一的。

5

指定触发扩展的值。必须指定为带引号的字符串值。

6

指定要使用的 Prometheus 查询。

7

指定要使用的身份验证方法。Prometheus scalers 支持 bearer 身份验证 (bearer)、基本身份验证 (basic) 或 TLS 身份验证 (tls)。您可以在触发器身份验证中配置特定的身份验证参数，如以下部分所述。根据需要，您还可以使用 secret。

8

可选：将 X-Scope-OrgID 标头传递给多租户 Cortex 或 Prometheus 的 Mimir 存储。这个参数只需要带有多租户 Prometheus 存储，以指示 Prometheus 应该返回哪些数据。

可选：指定在 Prometheus 目标丢失时触发器应如何进行操作。

如果为 true，当 Prometheus 目标丢失时触发器将继续操作。这是默认的行为。
如果为 false，当 Prometheus 目标丢失时触发器会返回错误。

10

可选：指定是否应跳过证书检查。例如，如果在测试环境中运行并使用 Prometheus 端点上的自签名证书，您可以跳过检查。

如果为 false，则执行证书检查。这是默认的行为。
如果为 true，则不会执行证书检查。
重要
不建议跳过检查。

11

可选：为此 Prometheus 触发器使用的 HTTP 客户端指定 HTTP 请求超时（以毫秒为单位）。这个值会覆盖任何全局超时设置。

3.4.1.1. 使用 Prometheus 和 DCGM 指标配置基于 GPU 的自动扩展
复制链接

您可以使用带有 NVIDIA Data Center GPU Manager (DCGM)指标的自定义 Metrics Autoscaler，根据 GPU 使用率扩展工作负载。这对需要 GPU 资源的 AI 和机器学习工作负载特别有用。

带有基于 GPU 的自动扩展的 Prometheus 目标的扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: gpu-scaledobject
  namespace: my-namespace
spec:
  scaleTargetRef:
    kind: Deployment
    name: gpu-deployment
  minReplicaCount: 1 
  maxReplicaCount: 5 
  triggers:
  - type: prometheus
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: my-namespace
      metricName: gpu_utilization
      threshold: '90' 
      query: SUM(DCGM_FI_DEV_GPU_UTIL{instance=~".+", gpu=~".+"}) 
      authModes: bearer
    authenticationRef:
      name: keda-trigger-auth-prometheus

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: gpu-scaledobject
  namespace: my-namespace
spec:
  scaleTargetRef:
    kind: Deployment
    name: gpu-deployment
  minReplicaCount: 1


  maxReplicaCount: 5


  triggers:
  - type: prometheus
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: my-namespace
      metricName: gpu_utilization
      threshold: '90'


      query: SUM(DCGM_FI_DEV_GPU_UTIL{instance=~".+", gpu=~".+"})


      authModes: bearer
    authenticationRef:
      name: keda-trigger-auth-prometheus

Copy to Clipboard

Toggle word wrap

1: 指定要维护的最小副本数。对于 GPU 工作负载，这不应该设置为 0 以确保继续收集指标。
2: 指定扩展操作期间允许的最大副本数。
3: 指定触发扩展的 GPU 使用率阈值。当平均 GPU 使用率超过 90% 时，自动扩展器会扩展部署。
4: 使用 NVIDIA DCGM 指标指定 Prometheus 查询来监控所有 GPU 设备的 GPU 利用率。DCGM_FI_DEV_GPU_UTIL 指标提供 GPU 使用率百分比。

3.4.1.2. 配置自定义指标自动扩展以使用 Red Hat OpenShift Service on AWS 监控
复制链接

您可以使用安装的 Red Hat OpenShift Service on AWS Prometheus 监控作为自定义指标自动扩展使用的指标的来源。但是，需要执行一些额外的配置。

要使扩展的对象能够读取 AWS Prometheus 指标上的 Red Hat OpenShift Service，您必须使用触发器身份验证或集群触发器身份验证来提供所需的身份验证信息。以下流程因您使用的触发器验证方法而异。如需有关触发器身份验证的更多信息，请参阅"了解自定义指标自动扩展身份验证"。

注意

外部 Prometheus 源不需要这些步骤。

您必须执行以下任务，如本节所述：

创建一个服务帐户。
创建触发器身份验证。
创建角色。
将该角色添加到服务帐户。
在 Prometheus 使用的触发器验证对象中引用令牌。

先决条件

必须安装 Red Hat OpenShift Service on AWS 监控。
在 Red Hat OpenShift Service on AWS 监控中必须启用对 用户定义的工作负载的监控，如创建用户定义的工作负载监控配置映射 部分所述。
必须安装 Custom Metrics Autoscaler Operator。

流程

改为适当的项目：
```
oc project <project_name>
```
```
$ oc project <project_name> 
```
1
Copy to Clipboard Toggle word wrap
1
指定以下项目之一：
如果使用触发器身份验证，请使用您要缩放的对象指定项目。
如果使用集群触发器身份验证，请指定 openshift-keda 项目。
如果集群没有服务帐户，请创建一个服务帐户：
1. 使用以下命令创建服务帐户对象：
  $ oc create serviceaccount thanos
  1
  Copy to Clipboard Toggle word wrap
  1
  指定服务帐户的名称。
使用服务帐户令牌创建触发器身份验证：
1. 创建一个类似以下示例的 YAML 文件：
  apiVersion: keda.sh/v1alpha1 kind: <authentication_method>
  1
  metadata: name: keda-trigger-auth-prometheus spec: boundServiceAccountToken:
  2
  - parameter: bearerToken
  3
  serviceAccountName: thanos
  4
  Copy to Clipboard Toggle word wrap
  1
  指定以下触发器验证方法之一：
  如果使用触发器身份验证，请指定 TriggerAuthentication。这个示例配置了触发器身份验证。
  如果您使用集群触发器身份验证，请指定 ClusterTriggerAuthentication。
  2
  指定在连接到指标端点时，此触发器身份验证使用绑定服务帐户令牌进行授权。
  3
  使用令牌指定要提供的身份验证参数。此处的示例使用 bearer 身份验证。
  4
  指定要使用的服务帐户的名称。
2. 创建 CR 对象：
  $ oc create -f <file-name>.yaml
  Copy to Clipboard Toggle word wrap

创建用于读取 Thanos 指标的角色：

使用以下参数创建 YAML 文件：

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: thanos-metrics-reader
rules:
- apiGroups:
  - ""
  resources:
  - pods
  verbs:
  - get
- apiGroups:
  - metrics.k8s.io
  resources:
  - pods
  - nodes
  verbs:
  - get
  - list
  - watch

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: thanos-metrics-reader
rules:
- apiGroups:
  - ""
  resources:
  - pods
  verbs:
  - get
- apiGroups:
  - metrics.k8s.io
  resources:
  - pods
  - nodes
  verbs:
  - get
  - list
  - watch

Copy to Clipboard

Toggle word wrap

创建 CR 对象：
```
oc create -f <file-name>.yaml
```
```
$ oc create -f <file-name>.yaml
```
Copy to Clipboard Toggle word wrap

创建用于读取 Thanos 指标的角色绑定：
1. 创建一个类似以下示例的 YAML 文件：
  apiVersion: rbac.authorization.k8s.io/v1 kind: <binding_type>
  1
  metadata: name: thanos-metrics-reader
  2
  namespace: my-project
  3
  roleRef: apiGroup: rbac.authorization.k8s.io kind: Role name: thanos-metrics-reader subjects: - kind: ServiceAccount name: thanos
  4
  namespace: <namespace_name>
  5
  Copy to Clipboard Toggle word wrap
  1
  指定以下对象类型之一：
  如果使用触发器身份验证，请指定 RoleBinding。
  如果您使用集群触发器身份验证，请指定 ClusterRoleBinding。
  2
  指定您创建的角色的名称。
  3
  指定以下项目之一：
  如果使用触发器身份验证，请使用您要缩放的对象指定项目。
  如果使用集群触发器身份验证，请指定 openshift-keda 项目。
  4
  指定要绑定到角色的服务帐户的名称。
  5
  指定之前创建服务帐户的项目。
2. 创建 CR 对象：
  $ oc create -f <file-name>.yaml
  Copy to Clipboard Toggle word wrap

现在，您可以部署扩展的对象或扩展作业来为应用程序启用自动扩展，如"了解如何添加自定义指标自动扩展"中所述。要将 Red Hat OpenShift Service on AWS 监控用作源，在触发器或 scaler 中，您必须包括以下参数：

triggers.type 必须是 prometheus
triggers.metadata.serverAddress 必须是 https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
triggers.metadata.authModes 必须是 bearer
triggers.metadata.namespace 必须设置为要缩放的对象的命名空间
triggers.authenticationRef 必须指向上一步中指定的触发器身份验证资源

3.4.2. 了解 CPU 触发器
复制链接

您可以根据 CPU 指标扩展 pod。此触发器使用集群指标作为指标的源。

自定义指标自动扩展扩展与对象关联的 pod，以维护您指定的 CPU 用量。自动缩放器增加或减少最小和最大数量之间的副本数量，以维护所有 pod 的指定 CPU 使用率。内存触发器考虑整个 pod 的内存使用率。如果 pod 有多个容器，则内存触发器会考虑 pod 中所有容器的总内存使用率。

注意

此触发器不能与 ScaledJob 自定义资源一起使用。
当使用内存触发器扩展对象时，对象不会扩展到 0，即使您使用多个触发器。

使用 CPU 目标扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: cpu-scaledobject
  namespace: my-namespace
spec:
# ...
  triggers:
  - type: cpu 
    metricType: Utilization 
    metadata:
      value: '60' 
  minReplicaCount: 1

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: cpu-scaledobject
  namespace: my-namespace
spec:
# ...
  triggers:
  - type: cpu


    metricType: Utilization


    metadata:
      value: '60'


  minReplicaCount: 1

Copy to Clipboard

Toggle word wrap

指定 CPU 作为触发器类型。

指定要使用的指标类型，可以是 Utilization 或 AverageValue。

指定触发扩展的值。必须指定为带引号的字符串值。

在使用 Utilization 时，target 值是所有相关 pod 中资源指标的平均值，以 pod 资源请求的值的百分比表示。
使用 AverageValue 时，target 值是所有相关 Pod 的指标平均值。

指定缩减时的最小副本数量。对于 CPU 触发器，输入值 1 或更高的值，因为如果您只使用 CPU 指标，HPA 无法缩减为零。

3.4.3. 了解内存触发器
复制链接

您可以根据内存指标扩展 pod。此触发器使用集群指标作为指标的源。

自定义指标自动扩展扩展与对象关联的 pod，以维护您指定的平均内存用量。自动缩放器会增加和减少最小和最大数量之间的副本数量，以维护所有 pod 的指定内存使用率。内存触发器考虑整个 pod 的内存使用率。如果 pod 有多个容器，则内存使用率是所有容器的总和。

注意

此触发器不能与 ScaledJob 自定义资源一起使用。
当使用内存触发器扩展对象时，对象不会扩展到 0，即使您使用多个触发器。

使用内存目标扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: memory-scaledobject
  namespace: my-namespace
spec:
# ...
  triggers:
  - type: memory 
    metricType: Utilization 
    metadata:
      value: '60' 
      containerName: api

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: memory-scaledobject
  namespace: my-namespace
spec:
# ...
  triggers:
  - type: memory


    metricType: Utilization


    metadata:
      value: '60'


      containerName: api

Copy to Clipboard

Toggle word wrap

将 memory 指定为触发器类型。

指定要使用的指标类型，可以是 Utilization 或 AverageValue。

指定触发扩展的值。必须指定为带引号的字符串值。

在使用 Utilization 时，target 值是所有相关 pod 中资源指标的平均值，以 pod 资源请求的值的百分比表示。
使用 AverageValue 时，target 值是所有相关 Pod 的指标平均值。

可选：根据该容器的内存使用率，而不是整个 pod，指定要缩放的独立容器。在本例中，只有名为 api 的容器才会扩展。

3.4.4. 了解 Kafka 触发器
复制链接

您可以根据 Apache Kafka 主题或支持 Kafka 协议的其他服务扩展 pod。自定义指标自动扩展不会缩放 Kafka 分区数量，除非在扩展的对象或扩展任务中将 allowIdleConsumers 参数设置为 true。

注意

如果消费者组数量超过主题中的分区数量，则额外的消费者组处于闲置状态。要避免这种情况，默认情况下副本数不会超过：

如果指定了主题，则主题上的分区数量
如果没有指定主题，则消费者组中的所有主题的分区数量
在扩展对象或扩展作业 CR 中指定的 maxReplicaCount

您可以使用 allowIdleConsumers 参数禁用这些默认行为。

使用 Kafka 目标扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: kafka-scaledobject
  namespace: my-namespace
spec:
# ...
  triggers:
  - type: kafka 
    metadata:
      topic: my-topic 
      bootstrapServers: my-cluster-kafka-bootstrap.openshift-operators.svc:9092 
      consumerGroup: my-group 
      lagThreshold: '10' 
      activationLagThreshold: '5' 
      offsetResetPolicy: latest 
      allowIdleConsumers: true 
      scaleToZeroOnInvalidOffset: false 
      excludePersistentLag: false 
      version: '1.0.0' 
      partitionLimitation: '1,2,10-20,31' 
      tls: enable

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: kafka-scaledobject
  namespace: my-namespace
spec:
# ...
  triggers:
  - type: kafka


    metadata:
      topic: my-topic


      bootstrapServers: my-cluster-kafka-bootstrap.openshift-operators.svc:9092


      consumerGroup: my-group


      lagThreshold: '10'


      activationLagThreshold: '5'


      offsetResetPolicy: latest


      allowIdleConsumers: true


      scaleToZeroOnInvalidOffset: false


      excludePersistentLag: false


      version: '1.0.0'


      partitionLimitation: '1,2,10-20,31'


      tls: enable

Copy to Clipboard

Toggle word wrap

指定 Kafka 作为触发器类型。

指定 Kafka 在处理偏移滞后的 Kafka 主题的名称。

指定要连接的 Kafka 代理的逗号分隔列表。

指定用于检查主题上的偏移以及处理相关滞后的 Kafka 消费者组的名称。

5

可选：指定触发扩展的平均目标值。必须指定为带引号的字符串值。默认值为 5。

6

可选：指定激活阶段的目标值。必须指定为带引号的字符串值。

7

可选：为 Kafka 使用者指定 Kafka 偏移重置策略。可用值包括：latest 和 earliest。默认为 latest。

8

可选：指定 Kafka 副本数是否可以超过主题中的分区数量。

如果为 true，则 Kafka 副本数可能会超过主题上的分区数量。这允许闲置 Kafka 用户。
如果为 false，则 Kafka 副本数不能超过主题上的分区数量。这是默认值。

指定当 Kafka 分区没有有效偏移时触发器的行为方式。

如果为 true，则该分区的用户将缩减为零。
如果为 false，则 scaler 为该分区保留单个消费者。这是默认值。

10

可选：指定触发器是否为当前偏移与之前轮询周期的当前偏移量相同或排除分区滞后。

如果为 true，则扩展程序会排除这些分区中的分区滞后。
如果为 false，则触发器在所有分区中包含所有消费者滞后。这是默认值。

11

可选：指定 Kafka 代理的版本。必须指定为带引号的字符串值。默认值为 1.0.0。

12

可选：指定一个以逗号分隔的分区 ID 列表来限制缩放。如果设置，则仅考虑计算滞后列出的 ID。必须指定为带引号的字符串值。默认为考虑所有分区。

13

可选：指定是否对 Kafka 使用 TSL 客户端身份验证。默认为禁用。有关配置 TLS 的详情，请参考 "Understanding custom metrics autoscaler trigger authentications"。

3.4.5. 了解 Cron 触发器
复制链接

您可以根据时间范围扩展 pod。

当时间范围启动时，自定义指标自动扩展会将与对象关联的 pod 从配置的最少 pod 数量扩展到所需的 pod 数量。在时间范围结束时，容器集将重新扩展到配置的最小值。时间段必须以 cron 格式进行配置。

在以下示例中，从印度标准时间 6:00 AM 到 6:30 PM 时将与此扩展对象关联的 pod 从 0 扩展到 100。

使用 Cron trigger 扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: cron-scaledobject
  namespace: default
spec:
  scaleTargetRef:
    name: my-deployment
  minReplicaCount: 0 
  maxReplicaCount: 100 
  cooldownPeriod: 300
  triggers:
  - type: cron 
    metadata:
      timezone: Asia/Kolkata 
      start: "0 6 * * *" 
      end: "30 18 * * *" 
      desiredReplicas: "100"

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: cron-scaledobject
  namespace: default
spec:
  scaleTargetRef:
    name: my-deployment
  minReplicaCount: 0


  maxReplicaCount: 100


  cooldownPeriod: 300
  triggers:
  - type: cron


    metadata:
      timezone: Asia/Kolkata


      start: "0 6 * * *"


      end: "30 18 * * *"


      desiredReplicas: "100"

Copy to Clipboard

Toggle word wrap

1: 指定在时间范围内缩减到的最小 pod 数量。
2: 指定扩展时的最大副本数量。这个值应当与 desiredReplicas 相同。默认值为 100。
3: 指定 Cron 触发器。
4: 指定时间帧的时区。这个值必须来自 IANA Time Zone 数据库。
5: 指定时间帧的开始。
6: 指定时间帧的末尾。
7: 指定在时间帧开始和结束之间要缩放的 pod 数量。这个值应当与 maxReplicaCount 相同。

3.4.6. 了解 Kubernetes 工作负载触发器
复制链接

您可以根据与特定标签选择器匹配的 pod 数量扩展 pod。

Custom Metrics Autoscaler Operator 会跟踪具有相同命名空间中的特定标签的 pod 数量，然后根据标记为扩展对象的 pod 数量来计算关系。使用这个关系，自定义 Metrics Autoscaler Operator 根据 ScaledObject 或 ScaledJob 规格中的扩展策略扩展对象。

pod 数量包含 Succeeded 或 Failed 阶段的 pod。

例如，如果您有一个frontend部署和一个backend部署。您可以使用 kubernetes-workload 触发器根据 frontend pod 的数量扩展 backend 部署。如果 frontend pod 数量增加，Operator 将扩展 backend pod 以维护指定的比率。在本例中，如果有 10 个带有 app=frontend pod 选择器的 pod，Operator 会将后端 Pod 扩展为 5，以便维护缩放对象中设置的 0.5 比例。

使用 Kubernetes 工作负载触发器的扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: workload-scaledobject
  namespace: my-namespace
spec:
  triggers:
  - type: kubernetes-workload 
    metadata:
      podSelector: 'app=frontend' 
      value: '0.5' 
      activationValue: '3.1'

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: workload-scaledobject
  namespace: my-namespace
spec:
  triggers:
  - type: kubernetes-workload


    metadata:
      podSelector: 'app=frontend'


      value: '0.5'


      activationValue: '3.1'

Copy to Clipboard

Toggle word wrap

指定 Kubernetes 工作负载触发器。

指定一个或多个 pod 选择器和/或以逗号分开的选择器，用于获取 pod 数量。

指定扩展工作负载和与选择器匹配的 pod 数量之间的目标关系。关系按照以下公式计算：

relation = (pods that match the selector) / (scaled workload pods)

relation = (pods that match the selector) / (scaled workload pods)

Copy to Clipboard

Toggle word wrap

可选：指定 scaler 激活阶段的目标值。默认值为 0。

3.5. 了解自定义指标自动扩展触发器身份验证
复制链接

触发器身份验证允许您在扩展对象或可供关联容器使用的扩展作业中包含身份验证信息。您可以使用触发器身份验证来传递 Red Hat OpenShift Service on AWS secret、平台原生 pod 身份验证机制、环境变量等。

您可以在与您要缩放的对象相同的命名空间中定义一个 TriggerAuthentication 对象。该触发器身份验证只能由该命名空间中的对象使用。

另外，要在多个命名空间中对象间共享凭证，您可以创建一个可在所有命名空间中使用的 ClusterTriggerAuthentication 对象。

触发验证和集群触发器身份验证使用相同的配置。但是，集群触发器身份验证需要在扩展对象的验证引用中有一个额外的 kind 参数。

使用绑定服务帐户令牌的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: secret-triggerauthentication
  namespace: my-namespace 
spec:
  boundServiceAccountToken: 
    - parameter: bearerToken
      serviceAccountName: thanos

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: secret-triggerauthentication
  namespace: my-namespace


spec:
  boundServiceAccountToken:


    - parameter: bearerToken
      serviceAccountName: thanos

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此触发器身份验证使用绑定服务帐户令牌进行授权。
3: 指定要使用的服务帐户的名称。

使用绑定服务帐户令牌的集群触发器身份验证示例

kind: ClusterTriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: bound-service-account-token-triggerauthentication 
spec:
  boundServiceAccountToken: 
    - parameter: bearerToken
      serviceAccountName: thanos

kind: ClusterTriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: bound-service-account-token-triggerauthentication


spec:
  boundServiceAccountToken:


    - parameter: bearerToken
      serviceAccountName: thanos

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此集群触发器身份验证使用绑定服务帐户令牌进行授权。
3: 指定要使用的服务帐户的名称。

使用 secret 进行基本身份验证的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: secret-triggerauthentication
  namespace: my-namespace 
spec:
  secretTargetRef: 
  - parameter: username 
    name: my-basic-secret 
    key: username 
  - parameter: password
    name: my-basic-secret
    key: password

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: secret-triggerauthentication
  namespace: my-namespace


spec:
  secretTargetRef:


  - parameter: username


    name: my-basic-secret


    key: username


  - parameter: password
    name: my-basic-secret
    key: password

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此触发器身份验证使用 secret 进行授权。
3: 使用 secret 指定提供的身份验证参数。
4: 指定要使用的 secret 的名称。有关基本身份验证的信息，请参见以下示例 secret。
5: 指定 secret 中与指定参数一起使用的密钥。

用于基本身份验证的 secret 示例

apiVersion: v1
kind: Secret
metadata:
  name: my-basic-secret
  namespace: default
data:
  username: "dXNlcm5hbWU=" 
  password: "cGFzc3dvcmQ="

apiVersion: v1
kind: Secret
metadata:
  name: my-basic-secret
  namespace: default
data:
  username: "dXNlcm5hbWU="


  password: "cGFzc3dvcmQ="

Copy to Clipboard

Toggle word wrap

1: 提供给触发器身份验证的用户名和密码。data 小节中的值必须采用 base-64 编码。

使用 secret 进行 CA 详情的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: secret-triggerauthentication
  namespace: my-namespace 
spec:
  secretTargetRef: 
    - parameter: key 
      name: my-secret 
      key: client-key.pem 
    - parameter: ca 
      name: my-secret 
      key: ca-cert.pem

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: secret-triggerauthentication
  namespace: my-namespace


spec:
  secretTargetRef:


    - parameter: key


      name: my-secret


      key: client-key.pem


    - parameter: ca


      name: my-secret


      key: ca-cert.pem

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此触发器身份验证使用 secret 进行授权。
3: 指定要使用的验证类型。
4: 指定要使用的 secret 的名称。
5: 指定 secret 中与指定参数一起使用的密钥。
6: 指定连接到指标端点时的自定义 CA 的身份验证参数。
7: 指定要使用的 secret 的名称。请参阅以下带有证书颁发机构(CA)详情的 secret 示例。
8: 指定 secret 中与指定参数一起使用的密钥。

带有证书颁发机构 (CA) 详细信息的 secret 示例

apiVersion: v1
kind: Secret
metadata:
  name: my-secret
  namespace: my-namespace
data:
  ca-cert.pem: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0... 
  client-cert.pem: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0... 
  client-key.pem: LS0tLS1CRUdJTiBQUklWQVRFIEtFWS0t...

apiVersion: v1
kind: Secret
metadata:
  name: my-secret
  namespace: my-namespace
data:
  ca-cert.pem: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0tLS0...


  client-cert.pem: LS0tLS1CRUdJTiBDRVJUSUZJQ0FURS0...


  client-key.pem: LS0tLS1CRUdJTiBQUklWQVRFIEtFWS0t...

Copy to Clipboard

Toggle word wrap

1: 指定用于验证指标端点的 TLS CA 证书。该值必须采用 base-64 编码。
2: 指定 TLS 客户端身份验证的 TLS 证书和密钥。值必须采用 base-64 编码。

使用 bearer 令牌的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: token-triggerauthentication
  namespace: my-namespace 
spec:
  secretTargetRef: 
  - parameter: bearerToken 
    name: my-secret 
    key: bearerToken

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: token-triggerauthentication
  namespace: my-namespace


spec:
  secretTargetRef:


  - parameter: bearerToken


    name: my-secret


    key: bearerToken

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此触发器身份验证使用 secret 进行授权。
3: 指定要使用的验证类型。
4: 指定要使用的 secret 的名称。对于 bearer 令牌，请参见以下示例 secret。
5: 指定令牌中用于指定参数的密钥。

bearer 令牌的 secret 示例

apiVersion: v1
kind: Secret
metadata:
  name: my-secret
  namespace: my-namespace
data:
  bearerToken: "<bearer_token>"

apiVersion: v1
kind: Secret
metadata:
  name: my-secret
  namespace: my-namespace
data:
  bearerToken: "<bearer_token>"

Copy to Clipboard

Toggle word wrap

1: 指定与 bearer 身份验证一起使用的 bearer 令牌。该值必须采用 base-64 编码。

使用环境变量的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: env-var-triggerauthentication
  namespace: my-namespace 
spec:
  env: 
  - parameter: access_key 
    name: ACCESS_KEY 
    containerName: my-container

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: env-var-triggerauthentication
  namespace: my-namespace


spec:
  env:


  - parameter: access_key


    name: ACCESS_KEY


    containerName: my-container

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此触发器身份验证使用环境变量进行授权。
3: 指定要使用此变量设置的参数。
4: 指定环境变量的名称。
5: 可选：指定需要身份验证的容器。容器必须与扩展对象中的 scaleTargetRef 引用的资源相同。

使用 pod 身份验证供应商的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: pod-id-triggerauthentication
  namespace: my-namespace 
spec:
  podIdentity: 
    provider: aws-eks

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: pod-id-triggerauthentication
  namespace: my-namespace


spec:
  podIdentity:


    provider: aws-eks

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定此触发器身份验证在连接到指标端点时使用平台原生 pod 身份验证。
3: 指定 pod 身份。支持的值为 none,azure,gcp,aws-eks, 或 aws-kiam。默认为 none。

其他资源

3.5.1. 使用触发器身份验证
复制链接

您可以使用触发器验证和集群触发器身份验证，方法是使用自定义资源来创建身份验证，然后添加对扩展对象或扩展任务的引用。

先决条件

必须安装 Custom Metrics Autoscaler Operator。
如果您使用绑定的服务帐户令牌，则服务帐户必须存在。

如果您使用绑定服务帐户令牌，则必须存在一个基于角色的访问控制(RBAC)对象，使自定义 Metrics Autoscaler Operator 从服务帐户请求服务帐户令牌。

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: keda-operator-token-creator
  namespace: <namespace_name> 
rules:
- apiGroups:
  - ""
  resources:
  - serviceaccounts/token
  verbs:
  - create
  resourceNames:
  - thanos 
---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: keda-operator-token-creator-binding
  namespace: <namespace_name> 
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: Role
  name: keda-operator-token-creator
subjects:
- kind: ServiceAccount
  name: keda-operator
  namespace: openshift-keda

apiVersion: rbac.authorization.k8s.io/v1
kind: Role
metadata:
  name: keda-operator-token-creator
  namespace: <namespace_name>


rules:
- apiGroups:
  - ""
  resources:
  - serviceaccounts/token
  verbs:
  - create
  resourceNames:
  - thanos


---
apiVersion: rbac.authorization.k8s.io/v1
kind: RoleBinding
metadata:
  name: keda-operator-token-creator-binding
  namespace: <namespace_name>


roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: Role
  name: keda-operator-token-creator
subjects:
- kind: ServiceAccount
  name: keda-operator
  namespace: openshift-keda

Copy to Clipboard

Toggle word wrap

1: 指定服务帐户的命名空间。
2: 指定服务帐户的名称。
3: 指定服务帐户的命名空间。

如果使用 secret，Secret 对象必须存在。

流程

创建 TriggerAuthentication 或 ClusterTriggerAuthentication 对象。

创建定义对象的 YAML 文件：

使用绑定服务帐户令牌的触发器身份验证示例

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: prom-triggerauthentication
  namespace: my-namespace 
  spec:
  boundServiceAccountToken: 
    - parameter: token
      serviceAccountName: thanos

kind: TriggerAuthentication
apiVersion: keda.sh/v1alpha1
metadata:
  name: prom-triggerauthentication
  namespace: my-namespace


  spec:
  boundServiceAccountToken:


    - parameter: token
      serviceAccountName: thanos

Copy to Clipboard

Toggle word wrap

1: 指定您要缩放的对象的命名空间。
2: 指定在连接到指标端点时，此触发器身份验证使用绑定服务帐户令牌进行授权。
3: 指定要使用的服务帐户的名称。

创建 TriggerAuthentication 对象：
```
oc create -f <filename>.yaml
```
```
$ oc create -f <filename>.yaml
```
Copy to Clipboard Toggle word wrap

创建或编辑使用触发器身份验证的 ScaledObject YAML 文件：

运行以下命令，创建定义对象的 YAML 文件：

使用触发器身份验证的扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: scaledobject
  namespace: my-namespace
spec:
  scaleTargetRef:
    name: example-deployment
  maxReplicaCount: 100
  minReplicaCount: 0
  pollingInterval: 30
  triggers:
  - type: prometheus
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: kedatest # replace <NAMESPACE>
      metricName: http_requests_total
      threshold: '5'
      query: sum(rate(http_requests_total{job="test-app"}[1m]))
      authModes: "basic"
    authenticationRef:
      name: prom-triggerauthentication 
      kind: TriggerAuthentication

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: scaledobject
  namespace: my-namespace
spec:
  scaleTargetRef:
    name: example-deployment
  maxReplicaCount: 100
  minReplicaCount: 0
  pollingInterval: 30
  triggers:
  - type: prometheus
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: kedatest # replace <NAMESPACE>
      metricName: http_requests_total
      threshold: '5'
      query: sum(rate(http_requests_total{job="test-app"}[1m]))
      authModes: "basic"
    authenticationRef:
      name: prom-triggerauthentication


      kind: TriggerAuthentication

Copy to Clipboard

Toggle word wrap

1: 指定触发器身份验证对象的名称。
2: 指定 TriggerAuthentication。TriggerAuthentication 是默认值。

使用集群触发器身份验证的扩展对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: scaledobject
  namespace: my-namespace
spec:
  scaleTargetRef:
    name: example-deployment
  maxReplicaCount: 100
  minReplicaCount: 0
  pollingInterval: 30
  triggers:
  - type: prometheus
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: kedatest # replace <NAMESPACE>
      metricName: http_requests_total
      threshold: '5'
      query: sum(rate(http_requests_total{job="test-app"}[1m]))
      authModes: "basic"
    authenticationRef:
      name: prom-cluster-triggerauthentication 
      kind: ClusterTriggerAuthentication

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  name: scaledobject
  namespace: my-namespace
spec:
  scaleTargetRef:
    name: example-deployment
  maxReplicaCount: 100
  minReplicaCount: 0
  pollingInterval: 30
  triggers:
  - type: prometheus
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: kedatest # replace <NAMESPACE>
      metricName: http_requests_total
      threshold: '5'
      query: sum(rate(http_requests_total{job="test-app"}[1m]))
      authModes: "basic"
    authenticationRef:
      name: prom-cluster-triggerauthentication


      kind: ClusterTriggerAuthentication

Copy to Clipboard

Toggle word wrap

1: 指定触发器身份验证对象的名称。
2: 指定 ClusterTriggerAuthentication。

运行以下命令来创建扩展的对象：
```
oc apply -f <filename>
```
```
$ oc apply -f <filename>
```
Copy to Clipboard Toggle word wrap

3.6. 了解如何添加自定义指标自动扩展
复制链接

要添加自定义指标自动扩展，请为部署、有状态集或自定义资源创建 ScaledObject 自定义资源。为作业创建 ScaledJob 自定义资源。

您只能为每个您要扩展的工作负载创建一个扩展对象。另外，您不能在同一工作负载中使用扩展的对象和 pod 横向自动扩展(HPA)。

3.6.1. 在工作负载中添加自定义指标自动扩展
复制链接

您可以为 Deployment、StatefulSet 或 custom resource 对象创建的工作负载创建自定义指标自动扩展。

先决条件

必须安装 Custom Metrics Autoscaler Operator。

如果您使用自定义指标自动扩展来根据 CPU 或内存进行扩展：

您的集群管理员必须已配置了集群指标。您可以使用 oc describe PodMetrics <pod-name> 命令来判断是否已配置了指标。如果配置了指标，输出将类似以下示例，CPU 和 Memory 在 Usage 下显示。

oc describe PodMetrics openshift-kube-scheduler-ip-10-0-135-131.ec2.internal

$ oc describe PodMetrics openshift-kube-scheduler-ip-10-0-135-131.ec2.internal

Copy to Clipboard

Toggle word wrap

输出示例

Name:         openshift-kube-scheduler-ip-10-0-135-131.ec2.internal
Namespace:    openshift-kube-scheduler
Labels:       <none>
Annotations:  <none>
API Version:  metrics.k8s.io/v1beta1
Containers:
  Name:  wait-for-host-port
  Usage:
    Memory:  0
  Name:      scheduler
  Usage:
    Cpu:     8m
    Memory:  45440Ki
Kind:        PodMetrics
Metadata:
  Creation Timestamp:  2019-05-23T18:47:56Z
  Self Link:           /apis/metrics.k8s.io/v1beta1/namespaces/openshift-kube-scheduler/pods/openshift-kube-scheduler-ip-10-0-135-131.ec2.internal
Timestamp:             2019-05-23T18:47:56Z
Window:                1m0s
Events:                <none>

Name:         openshift-kube-scheduler-ip-10-0-135-131.ec2.internal
Namespace:    openshift-kube-scheduler
Labels:       <none>
Annotations:  <none>
API Version:  metrics.k8s.io/v1beta1
Containers:
  Name:  wait-for-host-port
  Usage:
    Memory:  0
  Name:      scheduler
  Usage:
    Cpu:     8m
    Memory:  45440Ki
Kind:        PodMetrics
Metadata:
  Creation Timestamp:  2019-05-23T18:47:56Z
  Self Link:           /apis/metrics.k8s.io/v1beta1/namespaces/openshift-kube-scheduler/pods/openshift-kube-scheduler-ip-10-0-135-131.ec2.internal
Timestamp:             2019-05-23T18:47:56Z
Window:                1m0s
Events:                <none>

Copy to Clipboard

Toggle word wrap

与您要缩放的对象关联的 pod 必须包含指定的内存和 CPU 限值。例如：

pod 规格示例

apiVersion: v1
kind: Pod
# ...
spec:
  containers:
  - name: app
    image: images.my-company.example/app:v4
    resources:
      limits:
        memory: "128Mi"
        cpu: "500m"
# ...

apiVersion: v1
kind: Pod
# ...
spec:
  containers:
  - name: app
    image: images.my-company.example/app:v4
    resources:
      limits:
        memory: "128Mi"
        cpu: "500m"
# ...

Copy to Clipboard

Toggle word wrap

流程

创建一个类似如下的 YAML 文件：只有名称 <2>, 对象名称 <4>, 和对象类型 <5> 是必需的。

缩放对象示例

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "0" 
  name: scaledobject 
  namespace: my-namespace
spec:
  scaleTargetRef:
    apiVersion: apps/v1 
    name: example-deployment 
    kind: Deployment 
    envSourceContainerName: .spec.template.spec.containers[0] 
  cooldownPeriod:  200 
  maxReplicaCount: 100 
  minReplicaCount: 0 
  metricsServer: 
    auditConfig:
      logFormat: "json"
      logOutputVolumeClaim: "persistentVolumeClaimName"
      policy:
        rules:
        - level: Metadata
        omitStages: "RequestReceived"
        omitManagedFields: false
      lifetime:
        maxAge: "2"
        maxBackup: "1"
        maxSize: "50"
  fallback: 
    failureThreshold: 3
    replicas: 6
    behavior: static 
  pollingInterval: 30 
  advanced:
    restoreToOriginalReplicaCount: false 
    horizontalPodAutoscalerConfig:
      name: keda-hpa-scale-down 
      behavior: 
        scaleDown:
          stabilizationWindowSeconds: 300
          policies:
          - type: Percent
            value: 100
            periodSeconds: 15
  triggers:
  - type: prometheus 
    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: kedatest
      metricName: http_requests_total
      threshold: '5'
      query: sum(rate(http_requests_total{job="test-app"}[1m]))
      authModes: basic
    authenticationRef: 
      name: prom-triggerauthentication
      kind: TriggerAuthentication

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "0"


  name: scaledobject


  namespace: my-namespace
spec:
  scaleTargetRef:
    apiVersion: apps/v1


    name: example-deployment


    kind: Deployment


    envSourceContainerName: .spec.template.spec.containers[0]


  cooldownPeriod:  200


  maxReplicaCount: 100


  minReplicaCount: 0


  metricsServer:


    auditConfig:
      logFormat: "json"
      logOutputVolumeClaim: "persistentVolumeClaimName"
      policy:
        rules:
        - level: Metadata
        omitStages: "RequestReceived"
        omitManagedFields: false
      lifetime:
        maxAge: "2"
        maxBackup: "1"
        maxSize: "50"
  fallback:


    failureThreshold: 3
    replicas: 6
    behavior: static


  pollingInterval: 30


  advanced:
    restoreToOriginalReplicaCount: false


    horizontalPodAutoscalerConfig:
      name: keda-hpa-scale-down


      behavior:


        scaleDown:
          stabilizationWindowSeconds: 300
          policies:
          - type: Percent
            value: 100
            periodSeconds: 15
  triggers:
  - type: prometheus


    metadata:
      serverAddress: https://thanos-querier.openshift-monitoring.svc.cluster.local:9092
      namespace: kedatest
      metricName: http_requests_total
      threshold: '5'
      query: sum(rate(http_requests_total{job="test-app"}[1m]))
      authModes: basic
    authenticationRef:


      name: prom-triggerauthentication
      kind: TriggerAuthentication

Copy to Clipboard

Toggle word wrap

可选：指定自定义 Metrics Autoscaler Operator 将副本扩展到指定的值和停止自动扩展，如 "Pausing the custom metrics autoscaler for a workload" 部分所述。

指定此自定义指标自动扩展的名称。

可选：指定目标资源的 API 版本。默认为 apps/v1。

指定要缩放的对象名称。

5

指定 kind 为 Deployment, StatefulSet 或 CustomResource。

6

可选：指定目标资源中的容器的名称，其中的自定义自动扩展器获取包含 secret 的环境变量等。默认为 .spec.template.spec.containers[0]。

7

可选。指定一个在最后的触发器报告后等待的时间（以秒为单位），在经过这个时间后才会将部署缩减为 0（如果 minReplicaCount 设置为 0）。默认值为 300。

8

可选：指定扩展时的最大副本数量。默认值为 100。

可选：指定缩减时的最小副本数量。

10

可选：指定审计日志的参数。如"配置审计日志记录"部分中所述。

11

可选：指定在扩展程序无法从源中获取由 failureThreshold 参数定义的次数时回退到的副本数。有关回退行为的更多信息，请参阅 KEDA 文档。

12

可选：指定在出现回退时要使用的副本数。输入以下选项之一或省略该参数：

输入 static，以使用 fallback.replicas 参数指定的副本数。这是默认值。
输入 currentReplicas 以维护当前副本数。
如果该数量高于 fallback.replicas 参数，则输入 currentReplicasIfHigher 以维护当前的副本数。如果当前副本数低于 fallback.replicas 参数，请使用 fallback.replicas 值。
如果该数量低于 fallback.replicas 参数，输入 currentReplicasIfLower 以维护当前的副本数。如果当前副本数高于 fallback.replicas 参数，请使用 fallback.replicas 值。

13

可选：指定检查每个触发器的时间间隔（以秒为单位）。默认值为 30。

14

可选：指定是否在删除扩展对象后将目标资源扩展为原始副本数。默认为 false，这会在删除扩展对象时保留副本数。

15

可选：指定 pod 横向自动扩展的名称。默认为 keda-hpa-{scaled-object-name}。

16

可选：指定一个扩展策略来控制用来扩展或缩减 pod 的速度，如"扩展策略"部分中所述。

17

指定用作扩展基础的触发器，如"识别自定义指标自动扩展触发器"部分中所述。本例使用 Red Hat OpenShift Service on AWS 监控。

18

可选：指定触发器身份验证或集群触发器身份验证。如需更多信息，请参阅附加资源部分中的 了解自定义指标自动扩展触发器身份验证。

输入 TriggerAuthentication 来使用触发器身份验证。这是默认值。
输入 ClusterTriggerAuthentication 来使用集群触发器身份验证。

运行以下命令来创建自定义指标自动扩展：
```
oc create -f <filename>.yaml
```
```
$ oc create -f <filename>.yaml
```
Copy to Clipboard Toggle word wrap

验证

查看命令输出，以验证是否已创建自定义指标自动扩展：
```
oc get scaledobject <scaled_object_name>
```
```
$ oc get scaledobject <scaled_object_name>
```
Copy to Clipboard Toggle word wrap
输出示例
```
NAME            SCALETARGETKIND      SCALETARGETNAME        MIN   MAX   TRIGGERS     AUTHENTICATION               READY   ACTIVE   FALLBACK   AGE
scaledobject    apps/v1.Deployment   example-deployment     0     50    prometheus   prom-triggerauthentication   True    True     True       17s
```
```
NAME            SCALETARGETKIND      SCALETARGETNAME        MIN   MAX   TRIGGERS     AUTHENTICATION               READY   ACTIVE   FALLBACK   AGE
scaledobject    apps/v1.Deployment   example-deployment     0     50    prometheus   prom-triggerauthentication   True    True     True       17s
```
Copy to Clipboard Toggle word wrap
请注意输出中的以下字段：
- TRIGGERS ：指示正在使用的触发器或缩放器。
- AUTHENTICATION ：指示所使用的任何触发器身份验证的名称。
- READY ：指示扩展对象是否准备好启动缩放：
  - 如果为 True，则扩展的对象已就绪。
  - 如果 False，由于您创建的对象中的一个或多个对象有问题，扩展的对象将不可用。
- ACTIVE ：指示扩展是否发生：
  - 如果为 True，则会进行缩放。
  - 如果 False，则不会发生缩放，因为您创建的一个或多个对象中没有指标或多个问题。
- FALLBACK ：指示自定义指标自动扩展是否能够从源获取指标
  - 如果 False，自定义指标自动扩展器会获取指标。
  - 如果为 True，自定义指标自动扩展会获取指标，因为您创建的一个或多个对象中没有指标或多个问题。

3.7. 暂停扩展对象的自定义指标自动扩展
复制链接

您可以根据需要暂停并重启工作负载的自动扩展。

例如，您可能想要在执行集群维护前暂停自动扩展，或通过删除非传输工作负载来避免资源不足。

3.7.1. 暂停自定义指标自动扩展
复制链接

您可以通过将 autoscaling.keda.sh/paused-replicas 注解添加到扩展对象的自定义指标自动扩展中来暂停扩展对象的自动扩展。自定义指标自动扩展将该工作负载的副本扩展到指定的值，并暂停自动扩展，直到注解被删除为止。

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4"
# ...

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4"
# ...

Copy to Clipboard

Toggle word wrap

流程

使用以下命令编辑工作负载的 ScaledObject CR：
```
oc edit ScaledObject scaledobject
```
```
$ oc edit ScaledObject scaledobject
```
Copy to Clipboard Toggle word wrap

使用任何值添加 autoscaling.keda.sh/paused-replicas 注解：

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4" 
  creationTimestamp: "2023-02-08T14:41:01Z"
  generation: 1
  name: scaledobject
  namespace: my-project
  resourceVersion: '65729'
  uid: f5aec682-acdf-4232-a783-58b5b82f5dd0

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4"


  creationTimestamp: "2023-02-08T14:41:01Z"
  generation: 1
  name: scaledobject
  namespace: my-project
  resourceVersion: '65729'
  uid: f5aec682-acdf-4232-a783-58b5b82f5dd0

Copy to Clipboard

Toggle word wrap

1: 指定自定义 Metrics Autoscaler Operator 将副本扩展到指定的值，并停止自动扩展。

3.7.2. 为扩展的对象重启自定义指标自动扩展
复制链接

您可以通过删除该 ScaledObject 的 autoscaling.keda.sh/paused-replicas 注解来重启暂停的自定义指标自动扩展。

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4"
# ...

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4"
# ...

Copy to Clipboard

Toggle word wrap

流程

使用以下命令编辑工作负载的 ScaledObject CR：
```
oc edit ScaledObject scaledobject
```
```
$ oc edit ScaledObject scaledobject
```
Copy to Clipboard Toggle word wrap

删除 autoscaling.keda.sh/paused-replicas 注解。

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4" 
  creationTimestamp: "2023-02-08T14:41:01Z"
  generation: 1
  name: scaledobject
  namespace: my-project
  resourceVersion: '65729'
  uid: f5aec682-acdf-4232-a783-58b5b82f5dd0

apiVersion: keda.sh/v1alpha1
kind: ScaledObject
metadata:
  annotations:
    autoscaling.keda.sh/paused-replicas: "4"


  creationTimestamp: "2023-02-08T14:41:01Z"
  generation: 1
  name: scaledobject
  namespace: my-project
  resourceVersion: '65729'
  uid: f5aec682-acdf-4232-a783-58b5b82f5dd0

Copy to Clipboard

Toggle word wrap

1: 删除此注解以重启暂停的自定义指标自动扩展。

3.8. 收集审计日志
复制链接

您可以收集审计日志，它们是与安全相关的按时间排序的记录，记录各个用户、管理员或其他系统组件影响系统的一系列活动。

例如，审计日志可帮助您了解自动扩展请求来自哪里。当后端因为用户应用程序发出的请求造成过载时，这个信息非常重要，您需要确定哪个是有问题的应用程序。

3.8.1. 配置审计日志记录
复制链接

您可以通过编辑 KedaController 自定义资源来为自定义 Metrics Autoscaler Operator 配置审计。日志通过 KedaController CR 中的持久性卷声明发送到卷的审计日志文件。

先决条件

必须安装 Custom Metrics Autoscaler Operator。

流程

编辑 KedaController 自定义资源以添加 auditConfig 小节：
```
kind: KedaController
apiVersion: keda.sh/v1alpha1
metadata:
  name: keda
  namespace: keda
spec:
# ...
  metricsServer:
# ...
    auditConfig:
      logFormat: "json" 
      logOutputVolumeClaim: "pvc-audit-log" 
      policy:
        rules: 
        - level: Metadata
        omitStages: "RequestReceived" 
        omitManagedFields: false 
      lifetime: 
        maxAge: "2"
        maxBackup: "1"
        maxSize: "50"
```
```
kind: KedaController
apiVersion: keda.sh/v1alpha1
metadata:
  name: keda
  namespace: keda
spec:
# ...
  metricsServer:
# ...
    auditConfig:
      logFormat: "json" 
```
1
```
      logOutputVolumeClaim: "pvc-audit-log" 
```
2
```
      policy:
        rules: 
```
3
```
        - level: Metadata
        omitStages: "RequestReceived" 
```
4
```
        omitManagedFields: false 
```
5
```
      lifetime: 
```
6
```
        maxAge: "2"
        maxBackup: "1"
        maxSize: "50"
```
Copy to Clipboard Toggle word wrap
1
指定审计日志的输出格式，可以是 legacy 或 json。
2
指定用于存储日志数据的现有持久性卷声明。所有来自 API 服务器的请求都会记录到此持久性卷声明。如果将此字段留空，日志数据将发送到 stdout。
3
指定应记录哪些事件及其应包含哪些数据：
None ：不记录事件。
Metadata ：仅记录请求的元数据，如用户、时间戳等。不要记录请求文本和响应文本。这是默认值。
Request ：仅记录元数据和请求文本，而不记录响应文本。这个选项不适用于非资源请求。
RequestResponse ：日志事件元数据、请求文本和响应文本。这个选项不适用于非资源请求。
4
指定没有创建事件的阶段。
5
指定是否省略请求的 managed 字段，并从写入 API 审计日志的响应正文，可以是 true 来省略字段，或 false 包含字段。
6
指定审计日志的大小和生命周期。
MaxAge ：根据文件名中编码的时间戳，保留审计日志文件的最大天数。
maxBackup ：要保留的审计日志文件的最大数量。设置为 0 以保留所有审计日志文件。
maxsize ：在轮转审计日志文件前以 MB 为单位的最大大小。

验证

直接查看审计日志文件：

获取 keda-metrics-apiserver the pod 的名称：

oc get pod -n keda

oc get pod -n keda

Copy to Clipboard

Toggle word wrap

输出示例

NAME                                                  READY   STATUS    RESTARTS   AGE
custom-metrics-autoscaler-operator-5cb44cd75d-9v4lv   1/1     Running   0          8m20s
keda-metrics-apiserver-65c7cc44fd-rrl4r               1/1     Running   0          2m55s
keda-operator-776cbb6768-zpj5b                        1/1     Running   0          2m55s

NAME                                                  READY   STATUS    RESTARTS   AGE
custom-metrics-autoscaler-operator-5cb44cd75d-9v4lv   1/1     Running   0          8m20s
keda-metrics-apiserver-65c7cc44fd-rrl4r               1/1     Running   0          2m55s
keda-operator-776cbb6768-zpj5b                        1/1     Running   0          2m55s

Copy to Clipboard

Toggle word wrap

使用类似如下的命令查看日志数据：

oc logs keda-metrics-apiserver-<hash>|grep -i metadata

$ oc logs keda-metrics-apiserver-<hash>|grep -i metadata

Copy to Clipboard

Toggle word wrap

1: 可选：您可以使用 grep 命令指定要显示的日志级别： Metadata、Request、RequestResponse。

例如：

oc logs keda-metrics-apiserver-65c7cc44fd-rrl4r|grep -i metadata

$ oc logs keda-metrics-apiserver-65c7cc44fd-rrl4r|grep -i metadata

Copy to Clipboard

Toggle word wrap

输出示例

 ...
{"kind":"Event","apiVersion":"audit.k8s.io/v1","level":"Metadata","auditID":"4c81d41b-3dab-4675-90ce-20b87ce24013","stage":"ResponseComplete","requestURI":"/healthz","verb":"get","user":{"username":"system:anonymous","groups":["system:unauthenticated"]},"sourceIPs":["10.131.0.1"],"userAgent":"kube-probe/1.28","responseStatus":{"metadata":{},"code":200},"requestReceivedTimestamp":"2023-02-16T13:00:03.554567Z","stageTimestamp":"2023-02-16T13:00:03.555032Z","annotations":{"authorization.k8s.io/decision":"allow","authorization.k8s.io/reason":""}}
 ...

 ...
{"kind":"Event","apiVersion":"audit.k8s.io/v1","level":"Metadata","auditID":"4c81d41b-3dab-4675-90ce-20b87ce24013","stage":"ResponseComplete","requestURI":"/healthz","verb":"get","user":{"username":"system:anonymous","groups":["system:unauthenticated"]},"sourceIPs":["10.131.0.1"],"userAgent":"kube-probe/1.28","responseStatus":{"metadata":{},"code":200},"requestReceivedTimestamp":"2023-02-16T13:00:03.554567Z","stageTimestamp":"2023-02-16T13:00:03.555032Z","annotations":{"authorization.k8s.io/decision":"allow","authorization.k8s.io/reason":""}}
 ...

Copy to Clipboard

Toggle word wrap

另外，您可以查看特定的日志：

使用类似如下的命令登录到 keda-metrics-apiserver the pod:

oc rsh pod/keda-metrics-apiserver-<hash> -n keda

$ oc rsh pod/keda-metrics-apiserver-<hash> -n keda

Copy to Clipboard

Toggle word wrap

例如：

oc rsh pod/keda-metrics-apiserver-65c7cc44fd-rrl4r -n keda

$ oc rsh pod/keda-metrics-apiserver-65c7cc44fd-rrl4r -n keda

Copy to Clipboard

Toggle word wrap

进入 /var/audit-policy/ 目录：
```
cd /var/audit-policy/
```
```
sh-4.4$ cd /var/audit-policy/
```
Copy to Clipboard Toggle word wrap
列出可用的日志：
```
ls
```
```
sh-4.4$ ls
```
Copy to Clipboard Toggle word wrap
输出示例
```
log-2023.02.17-14:50  policy.yaml
```
```
log-2023.02.17-14:50  policy.yaml
```
Copy to Clipboard Toggle word wrap

根据需要查看日志：

cat <log_name>/<pvc_name>|grep -i <log_level>

sh-4.4$ cat <log_name>/<pvc_name>|grep -i <log_level>

Copy to Clipboard

Toggle word wrap

1: 可选：您可以使用 grep 命令指定要显示的日志级别： Metadata、Request、RequestResponse。

例如：

cat log-2023.02.17-14:50/pvc-audit-log|grep -i Request

sh-4.4$ cat log-2023.02.17-14:50/pvc-audit-log|grep -i Request

Copy to Clipboard

Toggle word wrap

输出示例

 ...
{"kind":"Event","apiVersion":"audit.k8s.io/v1","level":"Request","auditID":"63e7f68c-04ec-4f4d-8749-bf1656572a41","stage":"ResponseComplete","requestURI":"/openapi/v2","verb":"get","user":{"username":"system:aggregator","groups":["system:authenticated"]},"sourceIPs":["10.128.0.1"],"responseStatus":{"metadata":{},"code":304},"requestReceivedTimestamp":"2023-02-17T13:12:55.035478Z","stageTimestamp":"2023-02-17T13:12:55.038346Z","annotations":{"authorization.k8s.io/decision":"allow","authorization.k8s.io/reason":"RBAC: allowed by ClusterRoleBinding \"system:discovery\" of ClusterRole \"system:discovery\" to Group \"system:authenticated\""}}
 ...

 ...
{"kind":"Event","apiVersion":"audit.k8s.io/v1","level":"Request","auditID":"63e7f68c-04ec-4f4d-8749-bf1656572a41","stage":"ResponseComplete","requestURI":"/openapi/v2","verb":"get","user":{"username":"system:aggregator","groups":["system:authenticated"]},"sourceIPs":["10.128.0.1"],"responseStatus":{"metadata":{},"code":304},"requestReceivedTimestamp":"2023-02-17T13:12:55.035478Z","stageTimestamp":"2023-02-17T13:12:55.038346Z","annotations":{"authorization.k8s.io/decision":"allow","authorization.k8s.io/reason":"RBAC: allowed by ClusterRoleBinding \"system:discovery\" of ClusterRole \"system:discovery\" to Group \"system:authenticated\""}}
 ...

Copy to Clipboard

Toggle word wrap

3.9. 收集调试数据
复制链接

在提交问题单时同时提供您的集群信息，可以帮助红帽支持为您进行排除故障。

要帮助排除您的问题，请提供以下信息：

使用 must-gather 工具收集的数据。
唯一的集群 ID。

您可以使用 must-gather 工具来收集有关自定义 Metrics Autoscaler Operator 及其组件的数据，包括以下项目：

keda 命名空间及其子对象。
Custom Metric Autoscaler Operator 安装对象。
Custom Metric Autoscaler Operator CRD 对象。

3.9.1. 收集调试数据
复制链接

以下命令为自定义 Metrics Autoscaler Operator 运行 must-gather 工具：

oc adm must-gather --image="$(oc get packagemanifests openshift-custom-metrics-autoscaler-operator \
-n openshift-marketplace \
-o jsonpath='{.status.channels[?(@.name=="stable")].currentCSVDesc.annotations.containerImage}')"

$ oc adm must-gather --image="$(oc get packagemanifests openshift-custom-metrics-autoscaler-operator \
-n openshift-marketplace \
-o jsonpath='{.status.channels[?(@.name=="stable")].currentCSVDesc.annotations.containerImage}')"

Copy to Clipboard

Toggle word wrap

注意

标准 Red Hat OpenShift Service on AWS must-gather 命令 oc adm must-gather 不会收集自定义 Metrics Autoscaler Operator 数据。

先决条件

以具有 dedicated-admin 角色的用户身份登录到 Red Hat OpenShift Service on AWS。
安装了 Red Hat OpenShift Service on AWS CLI (oc)。

流程

进入存储 must-gather 数据的目录。

执行以下之一：

要只获取自定义 Metrics Autoscaler Operator must-gather 数据，请使用以下命令：

oc adm must-gather --image="$(oc get packagemanifests openshift-custom-metrics-autoscaler-operator \
-n openshift-marketplace \
-o jsonpath='{.status.channels[?(@.name=="stable")].currentCSVDesc.annotations.containerImage}')"

$ oc adm must-gather --image="$(oc get packagemanifests openshift-custom-metrics-autoscaler-operator \
-n openshift-marketplace \
-o jsonpath='{.status.channels[?(@.name=="stable")].currentCSVDesc.annotations.containerImage}')"

Copy to Clipboard

Toggle word wrap

must-gather 命令的自定义镜像直接从 Operator 软件包清单中拉取，以便它可用于提供 Custom Metric Autoscaler Operator 的任何集群。

除了 Custom Metric Autoscaler Operator 信息外，要收集默认的 must-gather 数据：

使用以下命令获取自定义 Metrics Autoscaler Operator 镜像并将其设置为环境变量：

IMAGE="$(oc get packagemanifests openshift-custom-metrics-autoscaler-operator \
  -n openshift-marketplace \
  -o jsonpath='{.status.channels[?(@.name=="stable")].currentCSVDesc.annotations.containerImage}')"

$ IMAGE="$(oc get packagemanifests openshift-custom-metrics-autoscaler-operator \
  -n openshift-marketplace \
  -o jsonpath='{.status.channels[?(@.name=="stable")].currentCSVDesc.annotations.containerImage}')"

Copy to Clipboard

Toggle word wrap

使用带有自定义 Metrics Autoscaler Operator 镜像的 oc adm must-gather ：

oc adm must-gather --image-stream=openshift/must-gather --image=${IMAGE}

$ oc adm must-gather --image-stream=openshift/must-gather --image=${IMAGE}

Copy to Clipboard

Toggle word wrap

例 3.1. Custom Metric Autoscaler 的 must-gather 输出示例

└── keda
    ├── apps
    │   ├── daemonsets.yaml
    │   ├── deployments.yaml
    │   ├── replicasets.yaml
    │   └── statefulsets.yaml
    ├── apps.openshift.io
    │   └── deploymentconfigs.yaml
    ├── autoscaling
    │   └── horizontalpodautoscalers.yaml
    ├── batch
    │   ├── cronjobs.yaml
    │   └── jobs.yaml
    ├── build.openshift.io
    │   ├── buildconfigs.yaml
    │   └── builds.yaml
    ├── core
    │   ├── configmaps.yaml
    │   ├── endpoints.yaml
    │   ├── events.yaml
    │   ├── persistentvolumeclaims.yaml
    │   ├── pods.yaml
    │   ├── replicationcontrollers.yaml
    │   ├── secrets.yaml
    │   └── services.yaml
    ├── discovery.k8s.io
    │   └── endpointslices.yaml
    ├── image.openshift.io
    │   └── imagestreams.yaml
    ├── k8s.ovn.org
    │   ├── egressfirewalls.yaml
    │   └── egressqoses.yaml
    ├── keda.sh
    │   ├── kedacontrollers
    │   │   └── keda.yaml
    │   ├── scaledobjects
    │   │   └── example-scaledobject.yaml
    │   └── triggerauthentications
    │       └── example-triggerauthentication.yaml
    ├── monitoring.coreos.com
    │   └── servicemonitors.yaml
    ├── networking.k8s.io
    │   └── networkpolicies.yaml
    ├── keda.yaml
    ├── pods
    │   ├── custom-metrics-autoscaler-operator-58bd9f458-ptgwx
    │   │   ├── custom-metrics-autoscaler-operator
    │   │   │   └── custom-metrics-autoscaler-operator
    │   │   │       └── logs
    │   │   │           ├── current.log
    │   │   │           ├── previous.insecure.log
    │   │   │           └── previous.log
    │   │   └── custom-metrics-autoscaler-operator-58bd9f458-ptgwx.yaml
    │   ├── custom-metrics-autoscaler-operator-58bd9f458-thbsh
    │   │   └── custom-metrics-autoscaler-operator
    │   │       └── custom-metrics-autoscaler-operator
    │   │           └── logs
    │   ├── keda-metrics-apiserver-65c7cc44fd-6wq4g
    │   │   ├── keda-metrics-apiserver
    │   │   │   └── keda-metrics-apiserver
    │   │   │       └── logs
    │   │   │           ├── current.log
    │   │   │           ├── previous.insecure.log
    │   │   │           └── previous.log
    │   │   └── keda-metrics-apiserver-65c7cc44fd-6wq4g.yaml
    │   └── keda-operator-776cbb6768-fb6m5
    │       ├── keda-operator
    │       │   └── keda-operator
    │       │       └── logs
    │       │           ├── current.log
    │       │           ├── previous.insecure.log
    │       │           └── previous.log
    │       └── keda-operator-776cbb6768-fb6m5.yaml
    ├── policy
    │   └── poddisruptionbudgets.yaml
    └── route.openshift.io
        └── routes.yaml

└── keda
    ├── apps
    │   ├── daemonsets.yaml
    │   ├── deployments.yaml
    │   ├── replicasets.yaml
    │   └── statefulsets.yaml
    ├── apps.openshift.io
    │   └── deploymentconfigs.yaml
    ├── autoscaling
    │   └── horizontalpodautoscalers.yaml
    ├── batch
    │   ├── cronjobs.yaml
    │   └── jobs.yaml
    ├── build.openshift.io
    │   ├── buildconfigs.yaml
    │   └── builds.yaml
    ├── core
    │   ├── configmaps.yaml
    │   ├── endpoints.yaml
    │   ├── events.yaml
    │   ├── persistentvolumeclaims.yaml
    │   ├── pods.yaml
    │   ├── replicationcontrollers.yaml
    │   ├── secrets.yaml
    │   └── services.yaml
    ├── discovery.k8s.io
    │   └── endpointslices.yaml
    ├── image.openshift.io
    │   └── imagestreams.yaml
    ├── k8s.ovn.org
    │   ├── egressfirewalls.yaml
    │   └── egressqoses.yaml
    ├── keda.sh
    │   ├── kedacontrollers
    │   │   └── keda.yaml
    │   ├── scaledobjects
    │   │   └── example-scaledobject.yaml
    │   └── triggerauthentications
    │       └── example-triggerauthentication.yaml
    ├── monitoring.coreos.com
    │   └── servicemonitors.yaml
    ├── networking.k8s.io
    │   └── networkpolicies.yaml
    ├── keda.yaml
    ├── pods
    │   ├── custom-metrics-autoscaler-operator-58bd9f458-ptgwx
    │   │   ├── custom-metrics-autoscaler-operator
    │   │   │   └── custom-metrics-autoscaler-operator
    │   │   │       └── logs
    │   │   │           ├── current.log
    │   │   │           ├── previous.insecure.log
    │   │   │           └── previous.log
    │   │   └── custom-metrics-autoscaler-operator-58bd9f458-ptgwx.yaml
    │   ├── custom-metrics-autoscaler-operator-58bd9f458-thbsh
    │   │   └── custom-metrics-autoscaler-operator
    │   │       └── custom-metrics-autoscaler-operator
    │   │           └── logs
    │   ├── keda-metrics-apiserver-65c7cc44fd-6wq4g
    │   │   ├── keda-metrics-apiserver
    │   │   │   └── keda-metrics-apiserver
    │   │   │       └── logs
    │   │   │           ├── current.log
    │   │   │           ├── previous.insecure.log
    │   │   │           └── previous.log
    │   │   └── keda-metrics-apiserver-65c7cc44fd-6wq4g.yaml
    │   └── keda-operator-776cbb6768-fb6m5
    │       ├── keda-operator
    │       │   └── keda-operator
    │       │       └── logs
    │       │           ├── current.log
    │       │           ├── previous.insecure.log
    │       │           └── previous.log
    │       └── keda-operator-776cbb6768-fb6m5.yaml
    ├── policy
    │   └── poddisruptionbudgets.yaml
    └── route.openshift.io
        └── routes.yaml

Copy to Clipboard

Toggle word wrap

从工作目录中创建的 must-gather 目录创建一个压缩文件。例如，在使用 Linux 操作系统的计算机上运行以下命令：
```
tar cvaf must-gather.tar.gz must-gather.local.5421342344627712289/
```
```
$ tar cvaf must-gather.tar.gz must-gather.local.5421342344627712289/ 
```
1
Copy to Clipboard Toggle word wrap
1
将 must-gather-local.5421342344627712289/ 替换为实际目录名称。
在红帽客户门户中为您的问题单附上压缩文件。

3.10. 查看 Operator 指标
复制链接

Custom Metrics Autoscaler Operator 会公开从集群监控组件中提取的可随时使用的指标。您可以使用 Prometheus Query Language (PromQL) 来分析和诊断问题来查询指标。控制器 pod 重启时会重置所有指标。

3.10.1. 访问性能指标
复制链接

您可以使用 Red Hat OpenShift Service on AWS Web 控制台访问指标并运行查询。

流程

在 Red Hat OpenShift Service on AWS web 控制台中选择 Administrator 视角。
选择 Observe → Metrics。
要创建自定义查询，请将 PromQL 查询添加到 Expression 字段中。
要添加多个查询，选择 Add Query。

3.10.1.1. 提供的 Operator 指标
复制链接

Custom Metrics Autoscaler Operator 会公开以下指标，您可以使用 Red Hat OpenShift Service on AWS Web 控制台查看这些指标。

Expand

表 3.1. 自定义 Metric Autoscaler Operator 指标
指标名称	描述
`keda_scaler_activity`	特定的 scaler 是活跃的还是不活跃的。值 `1` 表示 scaler 处于活跃状态； `0` 表示 scaler 不活跃。
`keda_scaler_metrics_value`	每个 scaler 的指标的当前值，由计算目标平均值中的 Horizontal Pod Autoscaler (HPA) 使用。
`keda_scaler_metrics_latency`	从每个 scaler 检索当前指标的延迟。
`keda_scaler_errors`	每个 scaler 发生的错误数量。
`keda_scaler_errors_total`	所有 scaler 遇到的错误总数。
`keda_scaled_object_errors`	每个扩展的对象发生的错误数量。
`keda_resource_totals`	每个命名空间中的自定义 Metrics Autoscaler 自定义资源总数，每种自定义资源类型。
`keda_trigger_totals`	根据触发器类型的触发器总数。

自定义 Metrics Autoscaler Admission Webhook 指标

自定义 Metrics Autoscaler Admission Webhook 也会公开以下 Prometheus 指标。

Expand

指标名称	描述
`keda_scaled_object_validation_total`	扩展对象验证的数量。
`keda_scaled_object_validation_errors`	验证错误的数量。

3.11. 删除自定义 Metrics Autoscaler Operator
复制链接

您可以从 Red Hat OpenShift Service on AWS 集群中删除自定义指标自动扩展。删除自定义 Metrics Autoscaler Operator 后，删除与 Operator 相关的其他组件以避免出现潜在的问题。

注意

首先删除 KedaController 自定义资源(CR)。如果您不删除 KedaController CR，在删除 keda 项目时，AWS 上的 Red Hat OpenShift Service 会挂起。如果在删除 CR 前删除了自定义 Metrics Autoscaler Operator，您将无法删除 CR。

3.11.1. 卸载自定义 Metrics Autoscaler Operator
复制链接

使用以下步骤从 Red Hat OpenShift Service on AWS 集群中删除自定义指标自动扩展。

先决条件

必须安装 Custom Metrics Autoscaler Operator。

流程

在 Red Hat OpenShift Service on AWS web 控制台中，点 Ecosystem → Installed Operators。
切换到 keda 项目。
删除 KedaController 自定义资源。
1. 找到 CustomMetricsAutoscaler Operator 并点 KedaController 选项卡。
2. 找到自定义资源，然后点 Delete KedaController。
3. 点 Uninstall。
删除自定义 Metrics Autoscaler Operator:
1. 点 Ecosystem → Installed Operators。
2. 找到 CustomMetricsAutoscaler Operator 并点 Options 菜单并选择 Uninstall Operator。
3. 点 Uninstall。
可选：使用 OpenShift CLI 删除自定义指标自动扩展组件：
1. 删除自定义指标自动扩展 CRD：
  - clustertriggerauthentications.keda.sh
  - kedacontrollers.keda.sh
  - scaledjobs.keda.sh
  - scaledobjects.keda.sh
  - triggerauthentications.keda.sh
  $ oc delete crd clustertriggerauthentications.keda.sh kedacontrollers.keda.sh scaledjobs.keda.sh scaledobjects.keda.sh triggerauthentications.keda.sh
  Copy to Clipboard Toggle word wrap
  删除 CRD 会删除关联的角色、集群角色和角色绑定。但是，可能存在一些必须手动删除的集群角色。
2. 列出任何自定义指标自动扩展集群角色：
  $ oc get clusterrole | grep keda.sh
  Copy to Clipboard Toggle word wrap
3. 删除列出的自定义指标自动扩展集群角色。例如：
  $ oc delete clusterrole.keda.sh-v1alpha1-admin
  Copy to Clipboard Toggle word wrap
4. 列出任何自定义指标自动扩展集群角色绑定：
  $ oc get clusterrolebinding | grep keda.sh
  Copy to Clipboard Toggle word wrap
5. 删除列出的自定义指标自动扩展集群角色绑定。例如：
  $ oc delete clusterrolebinding.keda.sh-v1alpha1-admin
  Copy to Clipboard Toggle word wrap
删除自定义指标自动扩展项目：
```
oc delete project keda
```
```
$ oc delete project keda
```
Copy to Clipboard Toggle word wrap

删除 Cluster Metric Autoscaler Operator：

oc delete operator/openshift-custom-metrics-autoscaler-operator.keda

$ oc delete operator/openshift-custom-metrics-autoscaler-operator.keda

Copy to Clipboard

Toggle word wrap

第 4 章控制节点上的 pod 放置（调度）
复制链接

4.1. 使用调度程序控制 pod 放置
复制链接

Pod 调度是一个内部过程，决定新 pod 如何放置到集群内的节点上。

调度程度代码具有明确隔离，会监测创建的新 pod 并确定最适合托管它们的节点。然后，它会利用主 API 为 pod 创建 pod 至节点的绑定。

默认 pod 调度

Red Hat OpenShift Service on AWS 附带一个满足大多数用户需求的默认调度程序。默认调度程序使用内置和自定义工具来决定最适合 pod 的调度程序。

高级 pod 调度

当您可能希望更多地控制新 pod 的放置位置时，Red Hat OpenShift Service on AWS 高级调度功能允许您配置 pod，以便需要 pod，或者优先在特定节点上运行，或者与特定的 pod 一起运行。

您可以使用以下调度功能来控制 pod 放置：

Pod 关联性和反关联性规则
节点关联性
节点选择器
节点过量使用

4.1.1. 关于默认调度程序
复制链接

默认 Red Hat OpenShift Service on AWS pod 调度程序负责确定新 pod 放置到集群内的节点上。它从 pod 读取数据，并查找最适合配置的配置集的节点。它完全独立存在，作为独立解决方案。它不会修改 pod；它会为将 pod 绑定到特定节点的 pod 创建绑定。

4.1.1.1. 了解默认调度
复制链接

现有的通用调度程序是平台默认提供的调度程序引擎，它可通过三步操作来选择托管 pod 的节点：

过滤节点: 根据指定的约束或要求过滤可用的节点。这可以通过使用名为 predicates, 或 filters 的过滤器函数列表在每个节点上运行来实现。
排列过滤后节点列表的优先顺序: 这可以通过一系列 priority, 或 scoring 来实现，这些函数为其分配分数介于 0 到 10 之间，0 表示不适合，10 则表示最适合托管该 pod。调度程序配置还可以为每个评分功能使用简单的权重（正数值）。每个评分功能提供的节点分数乘以权重（大多数分数的默认权重为 1），然后将每个节点通过为所有分数提供的分数相加。管理员可以使用这个权重属性为某些分数赋予更高的重要性。
选择最适合的节点: 节点按照分数排序，系统选择分数最高的节点来托管该 pod。如果多个节点的分数相同，则随机选择其中一个。

4.1.2. 调度程序用例
复制链接

在 Red Hat OpenShift Service on AWS 中调度的一个重要用例是支持灵活的关联性和反关联性策略。

4.1.2.1. 关联性
复制链接

管理员应能够配置调度程序，在任何一个甚至多个拓扑级别上指定关联性。特定级别上的关联性指示所有属于同一服务的 pod 调度到属于同一级别的节点。这会让管理员确保对等 pod 在地理上不会过于分散，以此处理应用程序对延迟的要求。如果同一关联性组中没有节点可用于托管 pod，则不调度该 pod。

如果您需要更好地控制 pod 的调度位置，请参阅使用节点关联性规则控制节点上的 pod 放置，以及使用关联性和反关联性规则相对于其他 pod 放置 pod。

管理员可以利用这些高级调度功能，来指定 pod 可以调度到哪些节点，并且相对于其他 pod 来强制或拒绝调度。

4.1.2.2. 反关联性
复制链接

管理员应能够配置调度程序，在任何一个甚至多个拓扑级别上指定反关联性。特定级别上的反关联性（或分散）指示属于同一服务的所有 pod 分散到属于该级别的不同节点上。这样可确保应用程序合理分布，以实现高可用性目的。调度程序尝试在所有适用的节点之间尽可能均匀地平衡服务 pod。

如果您需要更好地控制 pod 的调度位置，请参阅使用节点关联性规则控制节点上的 pod 放置，以及使用关联性和反关联性规则相对于其他 pod 放置 pod。

管理员可以利用这些高级调度功能，来指定 pod 可以调度到哪些节点，并且相对于其他 pod 来强制或拒绝调度。

4.2. 使用关联性和反关联性规则相对于其他 pod 放置 pod
复制链接

关联性是 pod 的一个属性，用于控制它们希望调度到的节点。反关联性是 pod 的一个属性，用于阻止 pod 调度到某个节点上。

在 AWS 上的 Red Hat OpenShift Service 中，pod 关联性和 pod 反关联性 允许您根据其他 pod 上的键值标签限制 pod 有资格调度到哪些节点。

4.2.1. 了解 pod 关联性
复制链接

您可以借助 pod 关联性和 pod 反关联性来根据其他 pod 上的键/值标签限制 pod 有资格调度到哪些节点。

如果新 pod 上的标签选择器与当前 pod 上的标签匹配，pod 关联性可以命令调度程序将新 pod 放置到与其他 pod 相同的节点上。
如果新 pod 上的标签选择器与当前 pod 上的标签匹配，pod 反关联性可以阻止调度程序将新 pod 放置到与具有相同标签的 pod 相同的节点上。

例如，您可以使用关联性规则，在服务内或相对于其他服务中的 pod 来分散或聚拢 pod。如果特定服务的 pod 的性能已知会受到另一服务的 pod 影响，那么您可以利用反关联性规则，防止前一服务的 pod 调度到与后一服务的 pod 相同的节点上。或者，您可以将服务的 pod 分散到节点间、可用性区域或可用性集，以减少相关的故障。

注意

标签选择器可能与带有多个 pod 部署的 pod 匹配。在配置反关联性规则时，请使用标签的唯一组合以避免匹配的 pod。

pod 关联性规则有两种，即必要规则和偏好规则。

必须满足必要规则，pod 才能调度到节点上。偏好规则指定在满足规则时调度程序会尝试强制执行规则，但不保证一定能强制执行成功。

注意

根据 pod 优先级和抢占设置，调度程序可能无法在不违反关联性要求的前提下为 pod 找到适合的节点。若是如此，pod 可能不会被调度。

要防止这种情况，请仔细配置优先级相同的 pod 的 pod 关联性。

您可以通过 Pod 规格文件配置 pod 关联性/反关联性。您可以指定必要规则或偏好规则，或同时指定这两种规则。如果您同时指定，节点必须首先满足必要规则，然后尝试满足偏好规则。

以下示例显示了配置了 pod 关联性和反关联性的 Pod 规格。

在本例中，pod 关联性规则指明，只有当节点至少有一个已在运行且具有键 security 和值 S1 的标签的 pod 时，pod 才可以调度到这个节点上。pod 反关联性则表示，如果节点已在运行带有键 security 和值 S2.的标签的 pod，则 pod 将偏向于不调度到该节点上。

具有 pod 关联性的 Pod 配置文件示例

apiVersion: v1
kind: Pod
metadata:
  name: with-pod-affinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAffinity: 
      requiredDuringSchedulingIgnoredDuringExecution: 
      - labelSelector:
          matchExpressions:
          - key: security 
            operator: In 
            values:
            - S1 
        topologyKey: topology.kubernetes.io/zone
  containers:
  - name: with-pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

apiVersion: v1
kind: Pod
metadata:
  name: with-pod-affinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAffinity:


      requiredDuringSchedulingIgnoredDuringExecution:


      - labelSelector:
          matchExpressions:
          - key: security


            operator: In


            values:
            - S1


        topologyKey: topology.kubernetes.io/zone
  containers:
  - name: with-pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

Copy to Clipboard

Toggle word wrap

1: 用于配置 pod 关联性的小节。
2: 定义必要规则。
3 5: 必须匹配键和值（标签）才会应用该规则。
4: 运算符表示现有 pod 上的标签和新 pod 规格中 matchExpression 参数的值集合之间的关系。可以是 In、NotIn、Exists 或 DoesNotExist。

具有 pod 反关联性的 Pod 配置文件示例

apiVersion: v1
kind: Pod
metadata:
  name: with-pod-antiaffinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAntiAffinity: 
      preferredDuringSchedulingIgnoredDuringExecution: 
      - weight: 100  
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security 
              operator: In 
              values:
              - S2
          topologyKey: kubernetes.io/hostname
  containers:
  - name: with-pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

apiVersion: v1
kind: Pod
metadata:
  name: with-pod-antiaffinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAntiAffinity:


      preferredDuringSchedulingIgnoredDuringExecution:


      - weight: 100


        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security


              operator: In


              values:
              - S2
          topologyKey: kubernetes.io/hostname
  containers:
  - name: with-pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

Copy to Clipboard

Toggle word wrap

1: 用于配置 pod 反关联性的小节。
2: 定义偏好规则。
3: 为偏好规则指定权重。优先选择权重最高的节点。
4: 描述用来决定何时应用反关联性规则的 pod 标签。指定标签的键和值。
5: 运算符表示现有 pod 上的标签和新 pod 规格中 matchExpression 参数的值集合之间的关系。可以是 In、NotIn、Exists 或 DoesNotExist。

注意

如果节点标签在运行时改变，使得不再满足 pod 上的关联性规则，pod 会继续在该节点上运行。

4.2.2. 配置 pod 关联性规则
复制链接

以下步骤演示了一个简单的双 pod 配置，它创建一个带有某标签的 pod，以及一个使用关联性来允许随着该 pod 一起调度的 pod。

注意

您不能直接将关联性添加到调度的 pod 中。

流程

创建 pod 规格中具有特定标签的 pod：

使用以下内容创建 YAML 文件：

apiVersion: v1
kind: Pod
metadata:
  name: security-s1
  labels:
    security: S1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: security-s1
    image: docker.io/ocpqe/hello-pod
    securityContext:
      runAsNonRoot: true
      seccompProfile:
        type: RuntimeDefault

apiVersion: v1
kind: Pod
metadata:
  name: security-s1
  labels:
    security: S1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: security-s1
    image: docker.io/ocpqe/hello-pod
    securityContext:
      runAsNonRoot: true
      seccompProfile:
        type: RuntimeDefault

Copy to Clipboard

Toggle word wrap

创建 pod。
```
oc create -f <pod-spec>.yaml
```
```
$ oc create -f <pod-spec>.yaml
```
Copy to Clipboard Toggle word wrap

在创建其他 pod 时，配置以下参数以添加关联性：

使用以下内容创建 YAML 文件：

apiVersion: v1
kind: Pod
metadata:
  name: security-s1-east
# ...
spec:
  affinity: 
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution: 
      - labelSelector:
          matchExpressions:
          - key: security 
            values:
            - S1
            operator: In 
        topologyKey: topology.kubernetes.io/zone 
# ...

apiVersion: v1
kind: Pod
metadata:
  name: security-s1-east
# ...
spec:
  affinity:


    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:


      - labelSelector:
          matchExpressions:
          - key: security


            values:
            - S1
            operator: In


        topologyKey: topology.kubernetes.io/zone


# ...

Copy to Clipboard

Toggle word wrap

1: 添加 pod 关联性。
2: 配置 requiredDuringSchedulingIgnoredDuringExecution 参数或 preferredDuringSchedulingIgnoredDuringExecution 参数。
3: 指定必须满足的 key 和 values。如果您希望新 pod 与其他 pod 一起调度，请使用与第一个 pod 上标签相同的 key 和 values 参数。
4: 指定一个 operator。运算符可以是 In、NotIn、Exists 或 DoesNotExist。例如，使用运算符 In 来要求节点上存在该标签。
5: 指定 topologyKey，这是一个预填充的 Kubernetes 标签，供系统用于表示这样的拓扑域。

创建 pod。
```
oc create -f <pod-spec>.yaml
```
```
$ oc create -f <pod-spec>.yaml
```
Copy to Clipboard Toggle word wrap

4.2.3. 配置 pod 反关联性规则
复制链接

以下步骤演示了一个简单的双 pod 配置，它创建一个带有某标签的 pod，以及一个使用反关联性偏好规则来尝试阻止随着该 pod 一起调度的 pod。

注意

您不能直接将关联性添加到调度的 pod 中。

流程

创建 pod 规格中具有特定标签的 pod：

使用以下内容创建 YAML 文件：

apiVersion: v1
kind: Pod
metadata:
  name: security-s1
  labels:
    security: S1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: security-s1
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

apiVersion: v1
kind: Pod
metadata:
  name: security-s1
  labels:
    security: S1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: security-s1
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

Copy to Clipboard

Toggle word wrap

创建 pod。
```
oc create -f <pod-spec>.yaml
```
```
$ oc create -f <pod-spec>.yaml
```
Copy to Clipboard Toggle word wrap

在创建其他 pod 时，配置以下参数：

使用以下内容创建 YAML 文件：

apiVersion: v1
kind: Pod
metadata:
  name: security-s2-east
# ...
spec:
# ...
  affinity: 
    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution: 
      - weight: 100 
        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security 
              values:
              - S1
              operator: In 
          topologyKey: kubernetes.io/hostname 
# ...

apiVersion: v1
kind: Pod
metadata:
  name: security-s2-east
# ...
spec:
# ...
  affinity:


    podAntiAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:


      - weight: 100


        podAffinityTerm:
          labelSelector:
            matchExpressions:
            - key: security


              values:
              - S1
              operator: In


          topologyKey: kubernetes.io/hostname


# ...

Copy to Clipboard

Toggle word wrap

1: 添加 pod 反关联性。
2: 配置 requiredDuringSchedulingIgnoredDuringExecution 参数或 preferredDuringSchedulingIgnoredDuringExecution 参数。
3: 对于一个首选的规则，为节点指定一个 1-100 的权重。优先选择权重最高的节点。
4: 指定必须满足的 key 和 values。如果您希望新 pod 不与其他 pod 一起调度，请使用与第一个 pod 上标签相同的 key 和 values 参数。
5: 指定一个 operator。运算符可以是 In、NotIn、Exists 或 DoesNotExist。例如，使用运算符 In 来要求节点上存在该标签。
6: 指定 topologyKey，它是一个预先填充的 Kubernetes 标签，用于表示这样的拓扑域。

创建 pod。
```
oc create -f <pod-spec>.yaml
```
```
$ oc create -f <pod-spec>.yaml
```
Copy to Clipboard Toggle word wrap

4.2.4. pod 关联性和反关联性规则示例
复制链接

以下示例演示了 pod 关联性和 pod 反关联性。

4.2.4.1. Pod 关联性
复制链接

以下示例演示了具有匹配标签和标签选择器的 pod 的 pod 关联性。

pod team4 具有标签 team:4。

apiVersion: v1
kind: Pod
metadata:
  name: team4
  labels:
     team: "4"
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: ocp
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: team4
  labels:
     team: "4"
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: ocp
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

pod team4a 在 podAffinity 下具有标签选择器 team:4。

apiVersion: v1
kind: Pod
metadata:
  name: team4a
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: team
            operator: In
            values:
            - "4"
        topologyKey: kubernetes.io/hostname
  containers:
  - name: pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: team4a
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: team
            operator: In
            values:
            - "4"
        topologyKey: kubernetes.io/hostname
  containers:
  - name: pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

team4a pod 调度到与 team4 pod 相同的节点上。

4.2.4.2. Pod 反关联性
复制链接

以下示例演示了具有匹配标签和标签选择器的 pod 的 pod 反关联性。

pod pod-s1 具有标签 security:s1。

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
  labels:
    security: s1
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: ocp
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
  labels:
    security: s1
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: ocp
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

pod pod-s2 在 podAntiAffinity 下具有标签选择器 security:s1。

apiVersion: v1
kind: Pod
metadata:
  name: pod-s2
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAntiAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - s1
        topologyKey: kubernetes.io/hostname
  containers:
  - name: pod-antiaffinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: pod-s2
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAntiAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - s1
        topologyKey: kubernetes.io/hostname
  containers:
  - name: pod-antiaffinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

pod pod-s2 无法调度到与 pod-s1 相同的节点上。

4.2.4.3. 无匹配标签的 Pod 反关联性
复制链接

以下示例演示了在没有匹配标签和标签选择器时的 pod 的 pod 关联性。

pod pod-s1 具有标签 security:s1。

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
  labels:
    security: s1
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: ocp
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
  labels:
    security: s1
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
  - name: ocp
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

pod pod-s2 具有标签选择器 security:s2。

apiVersion: v1
kind: Pod
metadata:
  name: pod-s2
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - s2
        topologyKey: kubernetes.io/hostname
  containers:
  - name: pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: pod-s2
# ...
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    podAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
      - labelSelector:
          matchExpressions:
          - key: security
            operator: In
            values:
            - s2
        topologyKey: kubernetes.io/hostname
  containers:
  - name: pod-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

除非节点上具有带 security:s2 标签的 pod，否则不会调度 pod-s2。如果没有具有该标签的其他 pod，新 pod 会保持在待处理状态：

输出示例

NAME      READY     STATUS    RESTARTS   AGE       IP        NODE
pod-s2    0/1       Pending   0          32s       <none>

NAME      READY     STATUS    RESTARTS   AGE       IP        NODE
pod-s2    0/1       Pending   0          32s       <none>

Copy to Clipboard

Toggle word wrap

4.3. 使用节点关联性规则控制节点上的 pod 放置
复制链接

关联性是 pod 的一个属性，用于控制它们希望调度到的节点。

在 Red Hat OpenShift Service on AWS 中，节点关联性是由调度程序用来确定 pod 的可放置位置的一组规则。规则是使用节点中的自定义标签和 pod 中指定的选择器进行定义的。

4.3.1. 了解节点关联性
复制链接

节点关联性允许 pod 指定与可以放置该 pod 的一组节点的关联性。节点对放置没有控制权。

例如，您可以将 pod 配置为仅在具有特定 CPU 或位于特定可用区的节点上运行。

节点关联性规则有两种，即必要规则和偏好规则。

必须满足必要规则，pod 才能调度到节点上。偏好规则指定在满足规则时调度程序会尝试强制执行规则，但不保证一定能强制执行成功。

注意

如果节点标签在运行时改变，使得不再满足 pod 上的节点关联性规则，该 pod 将继续在这个节点上运行。

您可以通过 Pod 规格文件配置节点关联性。您可以指定必要规则或偏好规则，或同时指定这两种规则。如果您同时指定，节点必须首先满足必要规则，然后尝试满足偏好规则。

下例中的 Pod spec 包含一条规则，要求 pod 放置到具有键为 e2e-az-NorthSouth 且值为 e2e-az-North 或 e2e-az-South 的标签的节点上：

具有节点关联性必要规则的 pod 配置文件示例

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    nodeAffinity: 
      requiredDuringSchedulingIgnoredDuringExecution: 
        nodeSelectorTerms:
        - matchExpressions:
          - key: e2e-az-NorthSouth 
            operator: In 
            values:
            - e2e-az-North 
            - e2e-az-South 
  containers:
  - name: with-node-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    nodeAffinity:


      requiredDuringSchedulingIgnoredDuringExecution:


        nodeSelectorTerms:
        - matchExpressions:
          - key: e2e-az-NorthSouth


            operator: In


            values:
            - e2e-az-North


            - e2e-az-South


  containers:
  - name: with-node-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

1: 用于配置节点关联性的小节。
2: 定义必要规则。
3 5 6: 必须匹配键/值对（标签）才会应用该规则。
4: 运算符表示节点上的标签和 Pod 规格中 matchExpression 参数的值集合之间的关系。这个值可以是 In、NotIn、Exists 或 DoesNotExist、Lt 或 Gt。

下例中的节点规格包含一条偏好规则，其规定优先为 pod 选择具有键为 e2e-az-EastWest 且值为 e2e-az-East 或 e2e-az-West 的节点：

具有节点关联性偏好规则的 pod 配置文件示例

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    nodeAffinity: 
      preferredDuringSchedulingIgnoredDuringExecution: 
      - weight: 1 
        preference:
          matchExpressions:
          - key: e2e-az-EastWest 
            operator: In 
            values:
            - e2e-az-East 
            - e2e-az-West 
  containers:
  - name: with-node-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

apiVersion: v1
kind: Pod
metadata:
  name: with-node-affinity
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  affinity:
    nodeAffinity:


      preferredDuringSchedulingIgnoredDuringExecution:


      - weight: 1


        preference:
          matchExpressions:
          - key: e2e-az-EastWest


            operator: In


            values:
            - e2e-az-East


            - e2e-az-West


  containers:
  - name: with-node-affinity
    image: docker.io/ocpqe/hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]
# ...

Copy to Clipboard

Toggle word wrap

1: 用于配置节点关联性的小节。
2: 定义偏好规则。
3: 为偏好规则指定权重。优先选择权重最高的节点。
4 6 7: 必须匹配键/值对（标签）才会应用该规则。
5: 运算符表示节点上的标签和 Pod 规格中 matchExpression 参数的值集合之间的关系。这个值可以是 In、NotIn、Exists 或 DoesNotExist、Lt 或 Gt。

没有明确的节点反关联性概念，但使用 NotIn 或 DoesNotExist 运算符就能实现这种行为。

注意

如果您在同一 pod 配置中同时使用节点关联性和节点选择器，请注意以下几点：

如果同时配置了 nodeSelector 和 nodeAffinity，则必须满足这两个条件时 pod 才能调度到候选节点。
如果您指定了多个与 nodeAffinity 类型关联的 nodeSelectorTerms，那么其中一个 nodeSelectorTerms 满足时 pod 就能调度到节点上。
如果您指定了多个与 nodeSelectorTerms 关联的 matchExpressions，那么只有所有 matchExpressions 都满足时 pod 才能调度到节点上。

4.3.2. 配置节点关联性必要规则
复制链接

必须满足必要规则，pod 才能调度到节点上。

流程

以下步骤演示了一个简单的配置，此配置会创建一个节点，以及调度程序要放置到该节点上的 pod。

创建 pod 规格中具有特定标签的 pod：

使用以下内容创建 YAML 文件：

注意

您不能直接将关联性添加到调度的 pod 中。

输出示例

apiVersion: v1
kind: Pod
metadata:
  name: s1
spec:
  affinity: 
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution: 
        nodeSelectorTerms:
        - matchExpressions:
          - key: e2e-az-name 
            values:
            - e2e-az1
            - e2e-az2
            operator: In 
#...

apiVersion: v1
kind: Pod
metadata:
  name: s1
spec:
  affinity:


    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:


        nodeSelectorTerms:
        - matchExpressions:
          - key: e2e-az-name


            values:
            - e2e-az1
            - e2e-az2
            operator: In


#...

Copy to Clipboard

Toggle word wrap

1: 添加 pod 关联性。
2: 配置 requiredDuringSchedulingIgnoredDuringExecution 参数。
3: 指定必须满足的 key 和 values。如果希望新 pod 调度到您编辑的节点上，请使用与节点中标签相同的 key 和 values 参数：
4: 指定一个 operator。运算符可以是 In、NotIn、Exists 或 DoesNotExist。例如，使用运算符 In 来要求节点上存在该标签。

创建 pod：
```
oc create -f <file-name>.yaml
```
```
$ oc create -f <file-name>.yaml
```
Copy to Clipboard Toggle word wrap

4.3.3. 配置首选的节点关联性规则
复制链接

偏好规则指定在满足规则时调度程序会尝试强制执行规则，但不保证一定能强制执行成功。

流程

以下步骤演示了一个简单的配置，此配置会创建一个节点，以及调度程序尝试放置到该节点上的 pod。

创建具有特定标签的 pod：

使用以下内容创建 YAML 文件：

注意

您不能直接将关联性添加到调度的 pod 中。

apiVersion: v1
kind: Pod
metadata:
  name: s1
spec:
  affinity: 
    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution: 
      - weight: 
        preference:
          matchExpressions:
          - key: e2e-az-name 
            values:
            - e2e-az3
            operator: In 
#...

apiVersion: v1
kind: Pod
metadata:
  name: s1
spec:
  affinity:


    nodeAffinity:
      preferredDuringSchedulingIgnoredDuringExecution:


      - weight:


        preference:
          matchExpressions:
          - key: e2e-az-name


            values:
            - e2e-az3
            operator: In


#...

Copy to Clipboard

Toggle word wrap

1: 添加 pod 关联性。
2: 配置 preferredDuringSchedulingIgnoredDuringExecution 参数。
3: 为节点指定一个数字为 1-100 的权重。优先选择权重最高的节点。
4: 指定必须满足的 key 和 values。如果希望新 pod 调度到您编辑的节点上，请使用与节点中标签相同的 key 和 values 参数：
5: 指定一个 operator。运算符可以是 In、NotIn、Exists 或 DoesNotExist。例如，使用运算符 In 来要求节点上存在该标签。

创建 pod。
```
oc create -f <file-name>.yaml
```
```
$ oc create -f <file-name>.yaml
```
Copy to Clipboard Toggle word wrap

4.3.4. 节点关联性规则示例
复制链接

以下示例演示了节点关联性。

4.3.4.1. 具有匹配标签的节点关联性
复制链接

以下示例演示了具有匹配标签的节点与 pod 的节点关联性：

Node1 节点具有标签 zone:us：

oc label node node1 zone=us

$ oc label node node1 zone=us

Copy to Clipboard

Toggle word wrap

提示

您还可以应用以下 YAML 来添加标签：

kind: Node
apiVersion: v1
metadata:
  name: <node_name>
  labels:
    zone: us
#...

kind: Node
apiVersion: v1
metadata:
  name: <node_name>
  labels:
    zone: us
#...

Copy to Clipboard

Toggle word wrap

pod-s1 pod 在节点关联性必要规则下具有 zone 和 us 键/值对：

cat pod-s1.yaml

$ cat pod-s1.yaml

Copy to Clipboard

Toggle word wrap

输出示例

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
    - image: "docker.io/ocpqe/hello-pod"
      name: hello-pod
      securityContext:
        allowPrivilegeEscalation: false
        capabilities:
          drop: [ALL]
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
          - matchExpressions:
            - key: "zone"
              operator: In
              values:
              - us
#...

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
    - image: "docker.io/ocpqe/hello-pod"
      name: hello-pod
      securityContext:
        allowPrivilegeEscalation: false
        capabilities:
          drop: [ALL]
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
          - matchExpressions:
            - key: "zone"
              operator: In
              values:
              - us
#...

Copy to Clipboard

Toggle word wrap

pod-s1 pod 可以调度到 Node1 上：

oc get pod -o wide

$ oc get pod -o wide

Copy to Clipboard

Toggle word wrap

输出示例

NAME     READY     STATUS       RESTARTS   AGE      IP      NODE
pod-s1   1/1       Running      0          4m       IP1     node1

NAME     READY     STATUS       RESTARTS   AGE      IP      NODE
pod-s1   1/1       Running      0          4m       IP1     node1

Copy to Clipboard

Toggle word wrap

4.3.4.2. 没有匹配标签的节点关联性
复制链接

以下示例演示了无匹配标签的节点与 pod 的节点关联性：

Node1 节点具有标签 zone:emea:

oc label node node1 zone=emea

$ oc label node node1 zone=emea

Copy to Clipboard

Toggle word wrap

提示

您还可以应用以下 YAML 来添加标签：

kind: Node
apiVersion: v1
metadata:
  name: <node_name>
  labels:
    zone: emea
#...

kind: Node
apiVersion: v1
metadata:
  name: <node_name>
  labels:
    zone: emea
#...

Copy to Clipboard

Toggle word wrap

pod-s1 pod 在节点关联性必要规则下具有 zone 和 us 键/值对：

cat pod-s1.yaml

$ cat pod-s1.yaml

Copy to Clipboard

Toggle word wrap

输出示例

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
    - image: "docker.io/ocpqe/hello-pod"
      name: hello-pod
      securityContext:
        allowPrivilegeEscalation: false
        capabilities:
          drop: [ALL]
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
          - matchExpressions:
            - key: "zone"
              operator: In
              values:
              - us
#...

apiVersion: v1
kind: Pod
metadata:
  name: pod-s1
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  containers:
    - image: "docker.io/ocpqe/hello-pod"
      name: hello-pod
      securityContext:
        allowPrivilegeEscalation: false
        capabilities:
          drop: [ALL]
  affinity:
    nodeAffinity:
      requiredDuringSchedulingIgnoredDuringExecution:
        nodeSelectorTerms:
          - matchExpressions:
            - key: "zone"
              operator: In
              values:
              - us
#...

Copy to Clipboard

Toggle word wrap

pod-s1 pod 无法调度到 Node1 上：

oc describe pod pod-s1

$ oc describe pod pod-s1

Copy to Clipboard

Toggle word wrap

输出示例

...

Events:
 FirstSeen LastSeen Count From              SubObjectPath  Type                Reason
 --------- -------- ----- ----              -------------  --------            ------
 1m        33s      8     default-scheduler Warning        FailedScheduling    No nodes are available that match all of the following predicates:: MatchNodeSelector (1).

...

Events:
 FirstSeen LastSeen Count From              SubObjectPath  Type                Reason
 --------- -------- ----- ----              -------------  --------            ------
 1m        33s      8     default-scheduler Warning        FailedScheduling    No nodes are available that match all of the following predicates:: MatchNodeSelector (1).

Copy to Clipboard

Toggle word wrap

4.4. 将 pod 放置到过量使用的节点
复制链接

处于过量使用（overcommited）状态时，容器计算资源请求和限制的总和超过系统中可用的资源。过量使用常用于开发环境，因为在这种环境中可以接受以牺牲保障性能来换取功能的情况。

请求和限制可让管理员允许和管理节点上资源的过量使用。调度程序使用请求来调度容器，并提供最低服务保证。限制约束节点上可以消耗的计算资源数量。

4.4.1. 了解过量使用
复制链接

Red Hat OpenShift Service on AWS 管理员可以通过配置 master 来覆盖开发人员容器上设置的请求和限制之间的比率，来控制过量使用的程度并管理节点上的容器密度。与项目一级上的用于指定限制和默认值的 LimitRange 对象一起使用，可以调整容器限制和请求以达到所需的过量使用程度。

注意

如果没有在容器中设定限制，则这些覆盖无效。创建一个带有默认限制（基于每个独立的项目或在项目模板中）的 LimitRange 对象，以确保能够应用覆盖。

在进行这些覆盖后，容器限制和请求必须仍需要满足项目中的 LimitRange 对象的要求。这可能会导致 pod 被禁止的情况。例如，开发人员指定了一个接近最小限制的限制，然后其请求被覆盖为低于最小限制。这个问题在以后会加以解决，但目前而言，请小心地配置此功能和 LimitRange 对象。

4.4.2. 了解节点过量使用
复制链接

在过量使用的环境中，务必要正确配置节点，以提供最佳的系统行为。

当节点启动时，它会确保为内存管理正确设置内核可微调标识。除非物理内存不足，否则内核应该永不会在内存分配时失败。

为确保此行为，Red Hat OpenShift Service on AWS 通过将 vm.overcommit_memory 参数设置为 1，覆盖默认的操作系统设置，将内核配置为始终过量使用内存。

Red Hat OpenShift Service on AWS 还通过将 vm.panic_on_oom 参数设置为 0， 将内核配置为不会在内存不足时 panic。设置为 0 可告知内核在内存不足 (OOM) 情况下调用 oom_killer，以根据优先级终止进程。

您可以通过对节点运行以下命令来查看当前的设置：

sysctl -a |grep commit

$ sysctl -a |grep commit

Copy to Clipboard

Toggle word wrap

输出示例

#...
vm.overcommit_memory = 0
#...

#...
vm.overcommit_memory = 0
#...

Copy to Clipboard

Toggle word wrap

sysctl -a |grep panic

$ sysctl -a |grep panic

Copy to Clipboard

Toggle word wrap

输出示例

#...
vm.panic_on_oom = 0
#...

#...
vm.panic_on_oom = 0
#...

Copy to Clipboard

Toggle word wrap

注意

节点上应该已设置了上述标记，不需要进一步操作。

您还可以为每个节点执行以下配置：

使用 CPU CFS 配额禁用或强制实施 CPU 限制
为系统进程保留资源
为不同的服务质量等级保留内存

4.5. 使用节点选择器将 pod 放置到特定节点
复制链接

节点选择器指定一个键/值对映射，该映射使用 pod 中指定的自定义标签和选择器定义。

要使 pod 有资格在节点上运行，pod 必须具有与节点上标签相同的键值节点选择器。

4.5.1. 关于节点选择器
复制链接

您可以使用节点选择器将特定的 pod 放置到特定的节点上，集群范围节点选择器将新 pod 放置到集群中的任何特定节点上，以及项目节点选择器，将新 pod 放置到特定的节点上。

例如，作为集群管理员，您可以创建一个基础架构，应用程序开发人员可以通过在创建的每个 pod 中包括节点选择器，将 pod 部署到最接近其地理位置的节点。在本例中，集群由五个数据中心组成，分布在两个区域。在美国，将节点标记为 us-east、us-central 或 us-west。在亚太地区（APAC），将节点标记为 apac-east 或 apac-west。开发人员可在其创建的 pod 中添加节点选择器，以确保 pod 调度到这些节点上。

如果 Pod 对象包含节点选择器，但没有节点具有匹配的标签，则不会调度 pod。

重要

如果您在同一 pod 配置中使用节点选择器和节点关联性，则以下规则控制 pod 放置到节点上：

如果同时配置了 nodeSelector 和 nodeAffinity，则必须满足这两个条件时 pod 才能调度到候选节点。
如果您指定了多个与 nodeAffinity 类型关联的 nodeSelectorTerms，那么其中一个 nodeSelectorTerms 满足时 pod 就能调度到节点上。
如果您指定了多个与 nodeSelectorTerms 关联的 matchExpressions，那么只有所有 matchExpressions 都满足时 pod 才能调度到节点上。

特定 pod 和节点上的节点选择器

您可以使用节点选择器和标签控制特定 pod 调度到哪些节点上。

要使用节点选择器和标签，首先标记节点以避免 pod 被取消调度，然后将节点选择器添加到 pod。

注意

您不能直接将节点选择器添加到现有调度的 pod 中。您必须标记控制 pod 的对象，如部署配置。

例如，以下 Node 对象具有 region: east 标签：

带有标识的 Node 对象示例

kind: Node
apiVersion: v1
metadata:
  name: ip-10-0-131-14.ec2.internal
  selfLink: /api/v1/nodes/ip-10-0-131-14.ec2.internal
  uid: 7bc2580a-8b8e-11e9-8e01-021ab4174c74
  resourceVersion: '478704'
  creationTimestamp: '2019-06-10T14:46:08Z'
  labels:
    kubernetes.io/os: linux
    topology.kubernetes.io/zone: us-east-1a
    node.openshift.io/os_version: '4.5'
    node-role.kubernetes.io/worker: ''
    topology.kubernetes.io/region: us-east-1
    node.openshift.io/os_id: rhcos
    node.kubernetes.io/instance-type: m4.large
    kubernetes.io/hostname: ip-10-0-131-14
    kubernetes.io/arch: amd64
    region: east 
    type: user-node
#...

kind: Node
apiVersion: v1
metadata:
  name: ip-10-0-131-14.ec2.internal
  selfLink: /api/v1/nodes/ip-10-0-131-14.ec2.internal
  uid: 7bc2580a-8b8e-11e9-8e01-021ab4174c74
  resourceVersion: '478704'
  creationTimestamp: '2019-06-10T14:46:08Z'
  labels:
    kubernetes.io/os: linux
    topology.kubernetes.io/zone: us-east-1a
    node.openshift.io/os_version: '4.5'
    node-role.kubernetes.io/worker: ''
    topology.kubernetes.io/region: us-east-1
    node.openshift.io/os_id: rhcos
    node.kubernetes.io/instance-type: m4.large
    kubernetes.io/hostname: ip-10-0-131-14
    kubernetes.io/arch: amd64
    region: east


    type: user-node
#...

Copy to Clipboard

Toggle word wrap

1: 与 pod 节点选择器匹配的标签。

pod 具有 type: user-node,region: east 节点选择器：

使用节点选择器的 Pod 对象示例

apiVersion: v1
kind: Pod
metadata:
  name: s1
#...
spec:
  nodeSelector: 
    region: east
    type: user-node
#...

apiVersion: v1
kind: Pod
metadata:
  name: s1
#...
spec:
  nodeSelector:


    region: east
    type: user-node
#...

Copy to Clipboard

Toggle word wrap

1: 与节点标签匹配的节点选择器。节点必须具有每个节点选择器的标签。

使用示例 pod 规格创建 pod 时，它可以调度到示例节点上。

默认集群范围节点选择器

使用默认的集群范围节点选择器时，当您在集群中创建 pod 时，Red Hat OpenShift Service on AWS 会将默认节点选择器添加到 pod，并将 pod 调度到具有匹配标签的节点。

例如，以下 Scheduler 对象具有默认的集群范围的 region=east 和 type=user-node 节点选择器：

Scheduler Operator 自定义资源示例

apiVersion: config.openshift.io/v1
kind: Scheduler
metadata:
  name: cluster
#...
spec:
  defaultNodeSelector: type=user-node,region=east
#...

apiVersion: config.openshift.io/v1
kind: Scheduler
metadata:
  name: cluster
#...
spec:
  defaultNodeSelector: type=user-node,region=east
#...

Copy to Clipboard

Toggle word wrap

集群中的节点具有 type=user-node,region=east 标签：

Node 对象示例

apiVersion: v1
kind: Node
metadata:
  name: ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4
#...
  labels:
    region: east
    type: user-node
#...

apiVersion: v1
kind: Node
metadata:
  name: ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4
#...
  labels:
    region: east
    type: user-node
#...

Copy to Clipboard

Toggle word wrap

使用节点选择器的 Pod 对象示例

apiVersion: v1
kind: Pod
metadata:
  name: s1
#...
spec:
  nodeSelector:
    region: east
#...

apiVersion: v1
kind: Pod
metadata:
  name: s1
#...
spec:
  nodeSelector:
    region: east
#...

Copy to Clipboard

Toggle word wrap

当您使用示例集群中的 pod spec 创建 pod 时，该 pod 会使用集群范围节点选择器创建，并调度到标记的节点：

在标记的节点上带有 pod 的 pod 列表示例

NAME     READY   STATUS    RESTARTS   AGE   IP           NODE                                       NOMINATED NODE   READINESS GATES
pod-s1   1/1     Running   0          20s   10.131.2.6   ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4   <none>           <none>

NAME     READY   STATUS    RESTARTS   AGE   IP           NODE                                       NOMINATED NODE   READINESS GATES
pod-s1   1/1     Running   0          20s   10.131.2.6   ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4   <none>           <none>

Copy to Clipboard

Toggle word wrap

注意

如果您在其中创建 pod 的项目具有项目节点选择器，则该选择器优先于集群范围节点选择器。如果 pod 没有项目节点选择器，则 pod 不会被创建或调度。

项目节点选择器

使用项目节点选择器时，当您在此项目中创建 pod 时，Red Hat OpenShift Service on AWS 会将节点选择器添加到 pod，并将该 pod 调度到具有匹配标签的节点。如果存在集群范围默认节点选择器，则以项目节点选择器为准。

例如，以下项目具有 region=east 节点选择器：

Namespace 对象示例

apiVersion: v1
kind: Namespace
metadata:
  name: east-region
  annotations:
    openshift.io/node-selector: "region=east"
#...

apiVersion: v1
kind: Namespace
metadata:
  name: east-region
  annotations:
    openshift.io/node-selector: "region=east"
#...

Copy to Clipboard

Toggle word wrap

以下节点具有 type=user-node,region=east 标签：

Node 对象示例

apiVersion: v1
kind: Node
metadata:
  name: ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4
#...
  labels:
    region: east
    type: user-node
#...

apiVersion: v1
kind: Node
metadata:
  name: ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4
#...
  labels:
    region: east
    type: user-node
#...

Copy to Clipboard

Toggle word wrap

当您使用本例项目中的示例 pod 规格创建 pod 时，pod 会使用项目节点选择器创建，并调度到标记的节点：

Pod 对象示例

apiVersion: v1
kind: Pod
metadata:
  namespace: east-region
#...
spec:
  nodeSelector:
    region: east
    type: user-node
#...

apiVersion: v1
kind: Pod
metadata:
  namespace: east-region
#...
spec:
  nodeSelector:
    region: east
    type: user-node
#...

Copy to Clipboard

Toggle word wrap

在标记的节点上带有 pod 的 pod 列表示例

NAME     READY   STATUS    RESTARTS   AGE   IP           NODE                                       NOMINATED NODE   READINESS GATES
pod-s1   1/1     Running   0          20s   10.131.2.6   ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4   <none>           <none>

NAME     READY   STATUS    RESTARTS   AGE   IP           NODE                                       NOMINATED NODE   READINESS GATES
pod-s1   1/1     Running   0          20s   10.131.2.6   ci-ln-qg1il3k-f76d1-hlmhl-worker-b-df2s4   <none>           <none>

Copy to Clipboard

Toggle word wrap

如果 pod 包含不同的节点选择器，则项目中的 pod 不会被创建或调度。例如，如果您将以下 Pod 部署到示例项目中，则不会创建它：

带有无效节点选择器的 Pod 对象示例

apiVersion: v1
kind: Pod
metadata:
  name: west-region
#...
spec:
  nodeSelector:
    region: west
#...

apiVersion: v1
kind: Pod
metadata:
  name: west-region
#...
spec:
  nodeSelector:
    region: west
#...

Copy to Clipboard

Toggle word wrap

4.5.2. 使用节点选择器控制 pod 放置
复制链接

注意

您不能直接将节点选择器添加到现有调度的 pod 中。

先决条件

要将节点选择器添加到现有 pod 中，请确定该 pod 的控制对象。例如, router-default-66d5cf9464-m2g75 pod 由 router-default-66d5cf9464 副本集控制：

oc describe pod router-default-66d5cf9464-7pwkc

$ oc describe pod router-default-66d5cf9464-7pwkc

Copy to Clipboard

Toggle word wrap

输出示例

kind: Pod
apiVersion: v1
metadata:
# ...
Name:               router-default-66d5cf9464-7pwkc
Namespace:          openshift-ingress
# ...
Controlled By:      ReplicaSet/router-default-66d5cf9464
# ...

kind: Pod
apiVersion: v1
metadata:
# ...
Name:               router-default-66d5cf9464-7pwkc
Namespace:          openshift-ingress
# ...
Controlled By:      ReplicaSet/router-default-66d5cf9464
# ...

Copy to Clipboard

Toggle word wrap

Web 控制台在 pod YAML 的 ownerReferences 下列出控制对象：

apiVersion: v1
kind: Pod
metadata:
  name: router-default-66d5cf9464-7pwkc
# ...
  ownerReferences:
    - apiVersion: apps/v1
      kind: ReplicaSet
      name: router-default-66d5cf9464
      uid: d81dd094-da26-11e9-a48a-128e7edf0312
      controller: true
      blockOwnerDeletion: true
# ...

apiVersion: v1
kind: Pod
metadata:
  name: router-default-66d5cf9464-7pwkc
# ...
  ownerReferences:
    - apiVersion: apps/v1
      kind: ReplicaSet
      name: router-default-66d5cf9464
      uid: d81dd094-da26-11e9-a48a-128e7edf0312
      controller: true
      blockOwnerDeletion: true
# ...

Copy to Clipboard

Toggle word wrap

流程

将匹配的节点选择器添加到 pod：

要将节点选择器添加到现有和未来的 pod，请向 pod 的控制对象添加节点选择器：

带有标签的 ReplicaSet 对象示例

kind: ReplicaSet
apiVersion: apps/v1
metadata:
  name: hello-node-6fbccf8d9
# ...
spec:
# ...
  template:
    metadata:
      creationTimestamp: null
      labels:
        ingresscontroller.operator.openshift.io/deployment-ingresscontroller: default
        pod-template-hash: 66d5cf9464
    spec:
      nodeSelector:
        kubernetes.io/os: linux
        node-role.kubernetes.io/worker: ''
        type: user-node 
# ...

kind: ReplicaSet
apiVersion: apps/v1
metadata:
  name: hello-node-6fbccf8d9
# ...
spec:
# ...
  template:
    metadata:
      creationTimestamp: null
      labels:
        ingresscontroller.operator.openshift.io/deployment-ingresscontroller: default
        pod-template-hash: 66d5cf9464
    spec:
      nodeSelector:
        kubernetes.io/os: linux
        node-role.kubernetes.io/worker: ''
        type: user-node


# ...

Copy to Clipboard

Toggle word wrap

1: 添加节点选择器。

要将节点选择器添加到一个特定的新 pod，直接将选择器添加到 Pod 对象中：

使用节点选择器的 Pod 对象示例

apiVersion: v1
kind: Pod
metadata:
  name: hello-node-6fbccf8d9
# ...
spec:
  nodeSelector:
    region: east
    type: user-node
# ...

apiVersion: v1
kind: Pod
metadata:
  name: hello-node-6fbccf8d9
# ...
spec:
  nodeSelector:
    region: east
    type: user-node
# ...

Copy to Clipboard

Toggle word wrap

注意

您不能直接将节点选择器添加到现有调度的 pod 中。

4.6. 使用 pod 拓扑分布限制控制 pod 放置
复制链接

您可以使用 pod 拓扑分布约束，提供对 pod 在节点、区、区域或其他用户定义的拓扑域间的放置的精细控制。在故障域间分布 pod 有助于实现高可用性和效率更高的资源利用率。

4.6.1. 使用案例示例
复制链接

作为管理员，我希望我的工作负载在两个到十五个 pod 之间自动缩放。我希望确保当只有两个 pod 时，它们没有在同一节点上放置，以避免出现单点故障。
作为管理员，我希望在多个基础架构区域间平均分配 pod，以降低延迟和网络成本。如果出现问题，我希望确保我的集群可以自我修复。

4.6.2. 重要注意事项
复制链接

Red Hat OpenShift Service on AWS 集群中的 Pod 由 工作负载控制器 管理，如部署、有状态集或守护进程集。这些控制器为一组 pod 定义所需状态，包括如何在集群的节点间分布和扩展。您应该对组中的所有 pod 设置相同的 pod 拓扑分布限制，以避免混淆。在使用工作负载控制器（如部署）时，pod 模板通常会为您处理它。
混合不同的 pod 拓扑分布限制可能会导致 Red Hat OpenShift Service on AWS 行为混淆并更困难。您可以通过确保拓扑域中的所有节点一致标记来避免这种情况。Red Hat OpenShift Service on AWS 会自动填充已知的标签，如 kubernetes.io/hostname。这有助于避免手动标记节点的需求。这些标签提供基本的拓扑信息，确保集群中具有一致的节点标签。
只有同一命名空间中的 pod 在因为约束而分散时才会被匹配和分组。
您可以指定多个 pod 拓扑分散约束，但您必须确保它们不会相互冲突。必须满足所有 pod 拓扑分布约束才能放置 pod。

4.6.3. 了解 skew 和 maxSkew
复制链接

skew 指的是在不同拓扑域（如区或节点）之间与指定标签选择器匹配的 pod 数量的不同。

skew 是为每个域计算的，在那个域中 pod 数量与调度最小 pod 的 pod 数量之间绝对不同。设置 maxSkew 值会引导调度程序来维护均衡的 pod 发行版。

4.6.3.1. skew 计算示例
复制链接

您有三个区域(A、B 和 C)，您希望在这些区间平均分配 pod。如果区域 A 具有 5 个 pod，区域 B 具有 3 个 pod，并且区域 C 具有 2 个 pod，以查找 skew，您可以减去域中当前从每个区域中 pod 数量最低的 pod 数量。这意味着区域 A 的 skew 是 3，区域 B 的 skew 是 1，并且区域 C 的 skew 为 0。

4.6.3.2. maxSkew 参数
复制链接

maxSkew 参数定义两个拓扑域之间的 pod 数量的最大允许差异或 skew。如果将 maxSkew 设置为 1，则任何拓扑域中的 pod 数量不应与任何其他域的 1 不同。如果 skew 超过 maxSkew，调度程序会尝试将新 pod 放置到减少 skew, 遵循限制的方式。

使用前面的示例 skew 计算，skew 值超过默认 maxSkew 值 1。调度程序将新 pod 放置到区 B 和 zone C 中，以减少 skew 并实现更平衡的分发，确保没有拓扑域超过偏移 1。

4.6.4. pod 拓扑分布约束配置示例
复制链接

您可以指定哪些 pod 要分组在一起，它们分散到哪些拓扑域以及可以接受的基点。

以下示例演示了 pod 拓扑分散约束配置。

根据区分发与指定标签匹配的 pod 示例

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
  labels:
    region: us-east
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  topologySpreadConstraints:
  - maxSkew: 1 
    topologyKey: topology.kubernetes.io/zone 
    whenUnsatisfiable: DoNotSchedule 
    labelSelector: 
      matchLabels:
        region: us-east 
    matchLabelKeys:
      - my-pod-label 
  containers:
  - image: "docker.io/ocpqe/hello-pod"
    name: hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

apiVersion: v1
kind: Pod
metadata:
  name: my-pod
  labels:
    region: us-east
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  topologySpreadConstraints:
  - maxSkew: 1


    topologyKey: topology.kubernetes.io/zone


    whenUnsatisfiable: DoNotSchedule


    labelSelector:


      matchLabels:
        region: us-east


    matchLabelKeys:
      - my-pod-label


  containers:
  - image: "docker.io/ocpqe/hello-pod"
    name: hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

Copy to Clipboard

Toggle word wrap

1: 两个拓扑域间的 pod 数量的最大差别。默认为 1，您不能指定 0 值。
2: 节点标签的密钥。具有此键和相同值的节点被视为在同一拓扑中。
3: 如果不满足分布式约束，如何处理 pod。默认为 DoNotSchedule，它会告诉调度程序不要调度 pod。设置为 ScheduleAnyway，它仍然会调度 pod，但调度程序会优先考虑 skew 的根据情况以使集群不要出现不平衡的情况。
4: 匹配此标签选择器的 Pod 在分发时被计算并识别为组，以满足约束要求。确保指定标签选择器，否则就无法匹配 pod。
5: 如果您希望以后正确计数此 Pod 规格，请确保此 Pod spec 也会设置其标签选择器来匹配这个标签选择器。
6: 用于选择要计算分布的 pod 的 pod 标签键列表。

演示单个 pod 拓扑分布约束的示例

kind: Pod
apiVersion: v1
metadata:
  name: my-pod
  labels:
    region: us-east
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  topologySpreadConstraints:
  - maxSkew: 1
    topologyKey: topology.kubernetes.io/zone
    whenUnsatisfiable: DoNotSchedule
    labelSelector:
      matchLabels:
        region: us-east
  containers:
  - image: "docker.io/ocpqe/hello-pod"
    name: hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

kind: Pod
apiVersion: v1
metadata:
  name: my-pod
  labels:
    region: us-east
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  topologySpreadConstraints:
  - maxSkew: 1
    topologyKey: topology.kubernetes.io/zone
    whenUnsatisfiable: DoNotSchedule
    labelSelector:
      matchLabels:
        region: us-east
  containers:
  - image: "docker.io/ocpqe/hello-pod"
    name: hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

Copy to Clipboard

Toggle word wrap

前面的示例定义了一个 pod 拓扑分布约束的 Pod 规格。它与标记为 region: us-east 的 pod 匹配：在区域间分布，指定 skew 1，并在不满足这些要求时不调度 pod。

演示多个 pod 拓扑分布限制示例

kind: Pod
apiVersion: v1
metadata:
  name: my-pod-2
  labels:
    region: us-east
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  topologySpreadConstraints:
  - maxSkew: 1
    topologyKey: node
    whenUnsatisfiable: DoNotSchedule
    labelSelector:
      matchLabels:
        region: us-east
  - maxSkew: 1
    topologyKey: rack
    whenUnsatisfiable: DoNotSchedule
    labelSelector:
      matchLabels:
        region: us-east
  containers:
  - image: "docker.io/ocpqe/hello-pod"
    name: hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

kind: Pod
apiVersion: v1
metadata:
  name: my-pod-2
  labels:
    region: us-east
spec:
  securityContext:
    runAsNonRoot: true
    seccompProfile:
      type: RuntimeDefault
  topologySpreadConstraints:
  - maxSkew: 1
    topologyKey: node
    whenUnsatisfiable: DoNotSchedule
    labelSelector:
      matchLabels:
        region: us-east
  - maxSkew: 1
    topologyKey: rack
    whenUnsatisfiable: DoNotSchedule
    labelSelector:
      matchLabels:
        region: us-east
  containers:
  - image: "docker.io/ocpqe/hello-pod"
    name: hello-pod
    securityContext:
      allowPrivilegeEscalation: false
      capabilities:
        drop: [ALL]

Copy to Clipboard

Toggle word wrap

上例定义了有两个 pod 拓扑分布约束的 Pod 规格。在标有 region: us-east 的 pod 上匹配：指定 skew 1，并在不满足这些要求时不调度 pod。

第一个限制基于用户定义的标签 node 发布 pod，第二个约束根据用户定义的标签 rack 分发 pod。调度 pod 必须满足这两个限制。

第 5 章使用作业和守护进程集
复制链接

5.1. 使用 daemonset 在节点上自动运行后台任务
复制链接

作为管理员，您可以创建并使用守护进程集在 Red Hat OpenShift Service on AWS 集群的特定或所有节点中运行 pod 副本。

守护进程集确保所有（或部分）节点都运行 pod 的副本。当节点添加到集群中时，pod 也会添加到集群中。当节点从集群中移除时，这些 pod 也会通过垃圾回收而被移除。删除守护进程集会清理它创建的 pod。

您可以使用 daemonset 创建共享存储，在集群的每一节点上运行日志 pod，或者在每个节点上部署监控代理。

为安全起见，集群管理员和项目管理员可以创建守护进程集。

如需有关守护进程集的更多信息，请参阅 Kubernetes 文档。

重要

守护进程集调度与项目的默认节点选择器不兼容。如果您没有禁用它，守护进程集会与默认节点选择器合并，从而受到限制。这会造成在合并后节点选择器没有选中的节点上频繁地重新创建 pod，进而给集群带来意外的负载。

5.1.1. 通过默认调度程序调度
复制链接

守护进程集确保所有有资格的节点都运行 pod 的副本。通常，Kubernetes 调度程序会选择要在其上运行 pod 的节点。但是，守护进程集 pod 由守护进程集控制器创建并调度。这会引发以下问题：

pod 行为不一致：等待调度的普通 pod 被创建好并处于待处理状态，但守护进程集 pod 没有以待处理的状态创建。这会给用户造成混淆。
Pod 抢占由默认调度程序处理。启用抢占后，守护进程集控制器将在不考虑 pod 优先级和抢占的前提下做出调度决策。

在 AWS 上的 Red Hat OpenShift Service 中默认启用 ScheduleDaemonSetPods 功能可让您使用默认调度程序而不是守护进程集控制器来调度守护进程集，方法是将 NodeAffinity 术语添加到守护进程集 pod，而不是 spec.nodeName 术语。然后，默认调度程序用于将 pod 绑定到目标主机。如果守护进程集的节点关联性已经存在，它会被替换掉。守护进程设置控制器仅在创建或修改守护进程集 pod 时执行这些操作，且不会对守护进程集的 spec.template 进行任何更改。

kind: Pod
apiVersion: v1
metadata:
  name: hello-node-6fbccf8d9-9tmzr
#...
spec:
  nodeAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      nodeSelectorTerms:
      - matchFields:
        - key: metadata.name
          operator: In
          values:
          - target-host-name
#...

kind: Pod
apiVersion: v1
metadata:
  name: hello-node-6fbccf8d9-9tmzr
#...
spec:
  nodeAffinity:
    requiredDuringSchedulingIgnoredDuringExecution:
      nodeSelectorTerms:
      - matchFields:
        - key: metadata.name
          operator: In
          values:
          - target-host-name
#...

Copy to Clipboard

Toggle word wrap

另外，node.kubernetes.io/unschedulable:NoSchedule 容限会自动添加到守护进程设置 Pod 中。在调度守护进程设置 pod 时，默认调度程序会忽略不可调度的节点。

5.1.2. 创建 daemonset
复制链接

在创建守护进程集时，使用 nodeSelector 字段来指示守护进程集应在其上部署副本的节点。

先决条件

在开始使用守护进程集之前，通过将命名空间注解 openshift.io/node-selector 设置为空字符串来禁用命名空间中的默认项目范围节点选择器：

oc patch namespace myproject -p \
    '{"metadata": {"annotations": {"openshift.io/node-selector": ""}}}'

$ oc patch namespace myproject -p \
    '{"metadata": {"annotations": {"openshift.io/node-selector": ""}}}'

Copy to Clipboard

Toggle word wrap

提示

您还可以应用以下 YAML 来为命名空间禁用默认的项目范围节点选择器：

apiVersion: v1
kind: Namespace
metadata:
  name: <namespace>
  annotations:
    openshift.io/node-selector: ''
#...

apiVersion: v1
kind: Namespace
metadata:
  name: <namespace>
  annotations:
    openshift.io/node-selector: ''
#...

Copy to Clipboard

Toggle word wrap

流程

创建守护进程集：

定义守护进程集 yaml 文件：

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: hello-daemonset
spec:
  selector:
      matchLabels:
        name: hello-daemonset 
  template:
    metadata:
      labels:
        name: hello-daemonset 
    spec:
      nodeSelector: 
        role: worker
      containers:
      - image: openshift/hello-openshift
        imagePullPolicy: Always
        name: registry
        ports:
        - containerPort: 80
          protocol: TCP
        resources: {}
        terminationMessagePath: /dev/termination-log
      serviceAccount: default
      terminationGracePeriodSeconds: 10
#...

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: hello-daemonset
spec:
  selector:
      matchLabels:
        name: hello-daemonset


  template:
    metadata:
      labels:
        name: hello-daemonset


    spec:
      nodeSelector:


        role: worker
      containers:
      - image: openshift/hello-openshift
        imagePullPolicy: Always
        name: registry
        ports:
        - containerPort: 80
          protocol: TCP
        resources: {}
        terminationMessagePath: /dev/termination-log
      serviceAccount: default
      terminationGracePeriodSeconds: 10
#...

Copy to Clipboard

Toggle word wrap

1: 决定哪些 pod 属于守护进程集的标签选择器。
2: pod 模板的标签选择器。必须与上述标签选择器匹配。
3: 决定应该在哪些节点上部署 pod 副本的节点选择器。节点上必须存在匹配的标签。

创建守护进程集对象：
```
oc create -f daemonset.yaml
```
```
$ oc create -f daemonset.yaml
```
Copy to Clipboard Toggle word wrap

验证 pod 是否已创建好，并且每个节点都有 pod 副本：

查找 daemonset pod：

oc get pods

$ oc get pods

Copy to Clipboard

Toggle word wrap

输出示例

hello-daemonset-cx6md   1/1       Running   0          2m
hello-daemonset-e3md9   1/1       Running   0          2m

hello-daemonset-cx6md   1/1       Running   0          2m
hello-daemonset-e3md9   1/1       Running   0          2m

Copy to Clipboard

Toggle word wrap

查看 pod 以验证 pod 已放置到节点上：

oc describe pod/hello-daemonset-cx6md|grep Node

$ oc describe pod/hello-daemonset-cx6md|grep Node

Copy to Clipboard

Toggle word wrap

输出示例

Node:        openshift-node01.hostname.com/10.14.20.134

Node:        openshift-node01.hostname.com/10.14.20.134

Copy to Clipboard

Toggle word wrap

oc describe pod/hello-daemonset-e3md9|grep Node

$ oc describe pod/hello-daemonset-e3md9|grep Node

Copy to Clipboard

Toggle word wrap

输出示例

Node:        openshift-node02.hostname.com/10.14.20.137

Node:        openshift-node02.hostname.com/10.14.20.137

Copy to Clipboard

Toggle word wrap

重要

如果更新守护进程设置的 pod 模板，现有的 pod 副本不会受到影响。
如果您删除了守护进程集，然后在创建新守护进程集时使用不同的模板和相同的标签选择器，它会将现有 pod 副本识别为具有匹配的标签，因而不更新它们，也不会创建新的副本，尽管 pod 模板中存在不匹配。
如果您更改了节点标签，守护进程集会把 pod 添加到与新标签匹配的节点，并从不匹配新标签的节点中删除 pod。

要更新守护进程集，请通过删除旧副本或节点来强制创建新的 pod 副本。

5.2. 使用任务在 Pod 中运行任务
复制链接

作业在 Red Hat OpenShift Service on AWS 集群中执行任务。

作业会跟踪任务的整体进度，并使用活跃、成功和失败 pod 的相关信息来更新其状态。删除作业会清理它创建的所有 pod 副本。作业是 Kubernetes API 的一部分，可以像其他对象类型一样通过 oc 命令进行管理。

作业规格示例

apiVersion: batch/v1
kind: Job
metadata:
  name: pi
spec:
  parallelism: 1    
  completions: 1    
  activeDeadlineSeconds: 1800 
  backoffLimit: 6   
  template:         
    metadata:
      name: pi
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: OnFailure    
#...

apiVersion: batch/v1
kind: Job
metadata:
  name: pi
spec:
  parallelism: 1


  completions: 1


  activeDeadlineSeconds: 1800


  backoffLimit: 6


  template:


    metadata:
      name: pi
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: OnFailure


#...

Copy to Clipboard

Toggle word wrap

1: 作业应并行运行的 pod 副本。
2: pod 成功完成后需要标记为作业也完成。
3: 作业可以运行的最长时间。
4: 作业的重试次数。
5: 控制器创建的 pod 模板。
6: pod 的重启策略。

其他资源

Kubernetes 文档中的作业

5.2.1. 了解作业和 cron 作业
复制链接

作业会跟踪任务的整体进度，并使用活跃、成功和失败 pod 的相关信息来更新其状态。删除作业会清理它创建的所有 pod。作业是 Kubernetes API 的一部分，可以像其他对象类型一样通过 oc 命令进行管理。

在 Red Hat OpenShift Service on AWS 中有两种资源类型允许创建运行一次的对象：

作业

常规作业是一种只运行一次的对象，它会创建一个任务并确保作业完成。

有三种适合作为作业运行的任务类型：

非并行作业：
- 仅启动一个 pod 的作业，除非 pod 失败。
- 一旦 pod 成功终止，作业就会马上完成。
带有固定完成计数的并行作业：
- 启动多个 pod 的作业。
- Job 代表整个任务，并在 1 到 completions 范围内的每个值都有一个成功 pod 时完成。
带有工作队列的并行作业：
- 在一个给定 pod 中具有多个并行 worker 进程的作业。
- Red Hat OpenShift Service on AWS 协调 pod，以确定每个 pod 都应该使用什么操作或使用外部队列服务。
- 每个 pod 都可以独立决定是否所有对等 pod 都已完成（整个作业完成）。
- 当所有来自作业的 pod 都成功终止时，不会创建新的 pod。
- 当至少有一个 pod 成功终止并且所有 pod 都终止时，作业成功完成。
- 当任何 pod 成功退出时，其他 pod 都不应该为这个任务做任何工作或写任何输出。Pod 都应该处于退出过程中。
  如需有关如何使用不同类型的作业的更多信息，请参阅 Kubernetes 文档中的作业模式。

Cron job

通过使用 Cron Job，一个作业可以被调度为运行多次。

Cron Job 基于常规作业构建，允许您指定作业的运行方式。Cron job 是 Kubernetes API 的一部分，可以像其他对象类型一样通过 oc 命令进行管理。

Cron Job 可用于创建周期性和重复执行的任务，如运行备份或发送电子邮件。Cron Job 也可以将个别任务调度到指定时间执行，例如，将一个作业调度到低活动时段执行。一个 cron 作业会创建一个 Job 对象，它基于在运行 cronjob 的 control plane 节点上配置的时区。

警告

Cron Job 大致会在调度的每个执行时间创建一个 Job 对象，但在有些情况下，它可能无法创建作业，或者可能会创建两个作业。因此，作业必须具有幂等性，而且您必须配置历史限制。

5.2.1.1. 了解如何创建作业
复制链接

两种资源类型都需要一个由以下关键部分组成的作业配置：

pod 模板，用于描述 Red Hat OpenShift Service on AWS 创建的 pod。
parallelism 参数，用于指定在任意时间点上应并行运行多少个 pod 来执行某个作业。
- 对于非并行作业，请保留未设置。当取消设置时，默认为 1。
completions 参数，用于指定需要成功完成多少个 pod 才能完成某个作业。
- 对于非并行作业，请保留未设置。当取消设置时，默认为 1。
- 对于带有固定完成计数的并行作业，请指定一个值。
- 对于带有工作队列的并行作业，请保留 unset。当取消设置默认为 parallelism 值。

5.2.1.2. 了解如何为作业设置最长持续时间
复制链接

在定义作业时，您可以通过设置 activeDeadlineSeconds 字段来定义其最长持续时间。以秒为单位指定，默认情况下不设置。若未设置，则不强制执行最长持续时间。

最长持续时间从系统中调度第一个 pod 的时间开始计算，并且定义作业在多久时间内处于活跃状态。它将跟踪整个执行时间。达到指定的超时时间后，Red Hat OpenShift Service on AWS 会终止作业。

5.2.1.3. 了解如何为 pod 失败设置作业避退策略
复制链接

在因为配置中的逻辑错误或其他类似原因而重试了一定次数后，作业会被视为已经失败。控制器以六分钟为上限，按指数避退延时（10s，20s，40s …）重新创建与作业关联的失败 pod。如果控制器检查之间没有出现新的失败 pod，则重置这个限制。

使用 spec.backoffLimit 参数为作业设置重试次数。

5.2.1.4. 了解如何配置 Cron Job 以移除工件
复制链接

Cron Job 可能会遗留工件资源，如作业或 pod 等。作为用户，务必要配置一个历史限制，以便能妥善清理旧作业及其 pod。Cron Job 规格内有两个字段负责这一事务：

.spec.successfulJobsHistoryLimit。要保留的成功完成作业数（默认为 3）。
.spec.failedJobsHistoryLimit。要保留的失败完成作业数（默认为 1）。

5.2.1.5. 已知限制
复制链接

作业规格重启策略只适用于 pod，不适用于作业控制器。不过，作业控制器被硬编码为可以一直重试直到作业完成为止。

因此，restartPolicy: Never 或 --restart=Never 会产生与 restartPolicy: OnFailure 或 --restart=OnFailure 相同的行为。也就是说，作业失败后会自动重启，直到成功（或被手动放弃）为止。策略仅设定由哪一子系统执行重启。

使用 Never 策略时，作业控制器负责执行重启。在每次尝试时，作业控制器会在作业状态中递增失败次数并创建新的 pod。这意味着，每次尝试失败都会增加 pod 的数量。

使用 OnFailure 策略时，kubelet 负责执行重启。每次尝试都不会在作业状态中递增失败次数。另外，kubelet 将通过在相同节点上启动 pod 来重试失败的作业。

5.2.2. 创建作业
复制链接

您可以通过创建作业对象，在 Red Hat OpenShift Service on AWS 中创建作业。

流程

创建作业：

创建一个类似以下示例的 YAML 文件：
```
apiVersion: batch/v1
kind: Job
metadata:
  name: pi
spec:
  parallelism: 1    
  completions: 1    
  activeDeadlineSeconds: 1800 
  backoffLimit: 6   
  template:         
    metadata:
      name: pi
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: OnFailure    
#...
```
```
apiVersion: batch/v1
kind: Job
metadata:
  name: pi
spec:
  parallelism: 1    
```
1
```
  completions: 1    
```
2
```
  activeDeadlineSeconds: 1800 
```
3
```
  backoffLimit: 6   
```
4
```
  template:         
```
5
```
    metadata:
      name: pi
    spec:
      containers:
      - name: pi
        image: perl
        command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
      restartPolicy: OnFailure    
```
6
```
#...
```
Copy to Clipboard Toggle word wrap
1
可选：指定一个作业应并行运行多少个 pod 副本；默认与 1。
对于非并行作业，请保留未设置。当取消设置时，默认为 1。
2
可选：指定标记作业完成需要成功完成多少个 pod。
对于非并行作业，请保留未设置。当取消设置时，默认为 1。
对于具有固定完成计数的并行作业，请指定完成数。
对于带有工作队列的并行作业，请保留 unset。当取消设置默认为 parallelism 值。
3
可选：指定作业可以运行的最长持续时间。
4
可选：指定作业的重试次数。此字段默认值为 6。
5
指定控制器创建的 Pod 模板。
6
指定 pod 的重启策略：
Never。不要重启作业。
OnFailure。仅在失败时重启该任务。
Always。总是重启该任务。
如需有关 Red Hat OpenShift Service on AWS 如何使用与失败容器相关的重启策略，请参阅 Kubernetes 文档中的示例状态。
创建作业：
```
oc create -f <file-name>.yaml
```
```
$ oc create -f <file-name>.yaml
```
Copy to Clipboard Toggle word wrap

注意

您还可以使用 oc create job，在一个命令中创建并启动作业。以下命令会创建并启动一个与上个示例中指定的相似的作业：

oc create job pi --image=perl -- perl -Mbignum=bpi -wle 'print bpi(2000)'

$ oc create job pi --image=perl -- perl -Mbignum=bpi -wle 'print bpi(2000)'

Copy to Clipboard

Toggle word wrap

5.2.3. 创建 cron job
复制链接

您可以通过创建作业对象，在 Red Hat OpenShift Service on AWS 中创建 cron 任务。

流程

创建 Cron Job：

创建一个类似以下示例的 YAML 文件：

apiVersion: batch/v1
kind: CronJob
metadata:
  name: pi
spec:
  schedule: "*/1 * * * *"          
  concurrencyPolicy: "Replace"     
  startingDeadlineSeconds: 200     
  suspend: true                    
  successfulJobsHistoryLimit: 3    
  failedJobsHistoryLimit: 1        
  jobTemplate:                     
    spec:
      template:
        metadata:
          labels:                  
            parent: "cronjobpi"
        spec:
          containers:
          - name: pi
            image: perl
            command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
          restartPolicy: OnFailure

apiVersion: batch/v1
kind: CronJob
metadata:
  name: pi
spec:
  schedule: "*/1 * * * *"


  concurrencyPolicy: "Replace"


  startingDeadlineSeconds: 200


  suspend: true


  successfulJobsHistoryLimit: 3


  failedJobsHistoryLimit: 1


  jobTemplate:


    spec:
      template:
        metadata:
          labels:


            parent: "cronjobpi"
        spec:
          containers:
          - name: pi
            image: perl
            command: ["perl",  "-Mbignum=bpi", "-wle", "print bpi(2000)"]
          restartPolicy: OnFailure

Copy to Clipboard

Toggle word wrap

以 cron 格式指定的作业调度计划。在本例中，作业将每分钟运行一次。

可选的并发策略，指定如何对待 Cron Job 中的并发作业。只能指定以下并发策略之一。若未指定，默认为允许并发执行。

Allow，允许 Cron Job 并发运行。
Forbid，禁止并发运行。如果上一运行尚未结束，则跳过下一运行。
Replace，取消当前运行的作业并替换为新作业。

可选期限（秒为单位），如果作业因任何原因而错过预定时间，则在此期限内启动作业。错过的作业执行计为失败的作业。若不指定，则没有期限。

可选标志，允许挂起 Cron Job。若设为 true，则会挂起所有后续执行。

要保留的成功完成作业数（默认为 3）。

要保留的失败完成作业数（默认为 1）。

作业模板。类似于作业示例。

为此 Cron Job 生成的作业设置一个标签。