9.5. 调度 NUMA 感知工作负载

9.5.1. 创建 NUMAResourcesOperator 自定义资源
复制链接

安装 NUMA Resources Operator 后，创建 NUMAResourcesOperator 自定义资源 (CR) 来指示 NUMA Resources Operator 安装支持 NUMA 感知调度程序所需的所有集群基础架构，包括守护进程集和 API。

先决条件

安装 OpenShift CLI（oc）。
以具有 cluster-admin 特权的用户身份登录。
安装 NUMA Resources Operator。

流程

创建 NUMAResourcesOperator 自定义资源：
1. 将以下最小所需的 YAML 文件示例保存为 nrop.yaml ：
  apiVersion: nodetopology.openshift.io/v1 kind: NUMAResourcesOperator metadata: name: numaresourcesoperator spec: nodeGroups: - machineConfigPoolSelector: matchLabels: pools.operator.machineconfiguration.openshift.io/worker: ""
  1
  Copy to Clipboard Toggle word wrap
  1
  这必须与您要配置 NUMA Resources Operator 的 MachineConfigPool 资源匹配。例如，您可能已创建了名为 worker-cnf 的 MachineConfigPool 资源，它指定了一组应该运行电信工作负载的节点。每个 NodeGroup 必须与一个 MachineConfigPool 完全匹配。不支持 NodeGroup 匹配多个 MachineConfigPool 的配置。
2. 运行以下命令来创建 NUMAResourcesOperator CR：
  $ oc create -f nrop.yaml
  Copy to Clipboard Toggle word wrap
  注意
  创建 NUMAResourcesOperator 会触发相应机器配置池上的重启，因此受影响的节点。

可选：要为多个机器配置池(MCP)启用 NUMA 感知调度，请为每个池定义单独的 NodeGroup。例如，在 NUMAResourcesOperator CR 中为 worker-cnf、worker-ht 和 worker-other 定义三个 NodeGroups，如下例所示：

具有多个 NodeGroups 的 NUMAResourcesOperator CR 的 YAML 定义示例

apiVersion: nodetopology.openshift.io/v1
kind: NUMAResourcesOperator
metadata:
  name: numaresourcesoperator
spec:
  logLevel: Normal
  nodeGroups:
    - machineConfigPoolSelector:
        matchLabels:
          machineconfiguration.openshift.io/role: worker-ht
    - machineConfigPoolSelector:
        matchLabels:
          machineconfiguration.openshift.io/role: worker-cnf
    - machineConfigPoolSelector:
        matchLabels:
          machineconfiguration.openshift.io/role: worker-other

apiVersion: nodetopology.openshift.io/v1
kind: NUMAResourcesOperator
metadata:
  name: numaresourcesoperator
spec:
  logLevel: Normal
  nodeGroups:
    - machineConfigPoolSelector:
        matchLabels:
          machineconfiguration.openshift.io/role: worker-ht
    - machineConfigPoolSelector:
        matchLabels:
          machineconfiguration.openshift.io/role: worker-cnf
    - machineConfigPoolSelector:
        matchLabels:
          machineconfiguration.openshift.io/role: worker-other

Copy to Clipboard

Toggle word wrap

验证

运行以下命令，验证 NUMA Resources Operator 是否已成功部署：

oc get numaresourcesoperators.nodetopology.openshift.io

$ oc get numaresourcesoperators.nodetopology.openshift.io

Copy to Clipboard

Toggle word wrap

输出示例

NAME                    AGE
numaresourcesoperator   27s

NAME                    AGE
numaresourcesoperator   27s

Copy to Clipboard

Toggle word wrap

几分钟后，运行以下命令验证所需资源是否已成功部署：

oc get all -n openshift-numaresources

$ oc get all -n openshift-numaresources

Copy to Clipboard

Toggle word wrap

输出示例

NAME                                                    READY   STATUS    RESTARTS   AGE
pod/numaresources-controller-manager-7d9d84c58d-qk2mr   1/1     Running   0          12m
pod/numaresourcesoperator-worker-7d96r                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-crsht                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-jp9mw                  2/2     Running   0          97s

NAME                                                    READY   STATUS    RESTARTS   AGE
pod/numaresources-controller-manager-7d9d84c58d-qk2mr   1/1     Running   0          12m
pod/numaresourcesoperator-worker-7d96r                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-crsht                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-jp9mw                  2/2     Running   0          97s

Copy to Clipboard

Toggle word wrap

9.5.2. 部署 NUMA 感知辅助 pod 调度程序
复制链接

安装 NUMA Resources Operator 后，部署支持 NUMA 的辅助 pod 调度程序，以优化 pod 放置来提高性能，并降低基于 NUMA 的系统的延迟。

流程

创建 NUMAResourcesScheduler 自定义资源来部署 NUMA 感知自定义 pod 调度程序：
1. 将以下最小 YAML 保存到 nro-scheduler.yaml 文件中：
  apiVersion: nodetopology.openshift.io/v1 kind: NUMAResourcesScheduler metadata: name: numaresourcesscheduler spec: imageSpec: "registry.redhat.io/openshift4/noderesourcetopology-scheduler-rhel9:v4.16"
  1
  Copy to Clipboard Toggle word wrap
  1
  在断开连接的环境中，确保通过完成以下任一操作来配置此镜像的解析：
  创建 ImageTagMirrorSet 自定义资源 (CR)。如需更多信息，请参阅"添加资源"部分中的"配置镜像 registry 存储库镜像"。
  将 URL 设置为断开连接的 registry。
2. 运行以下命令来创建 NUMAResourcesScheduler CR：
  $ oc create -f nro-scheduler.yaml
  Copy to Clipboard Toggle word wrap

几秒钟后，运行以下命令确认已成功部署所需资源：

oc get all -n openshift-numaresources

$ oc get all -n openshift-numaresources

Copy to Clipboard

Toggle word wrap

输出示例

NAME                                                    READY   STATUS    RESTARTS   AGE
pod/numaresources-controller-manager-7d9d84c58d-qk2mr   1/1     Running   0          12m
pod/numaresourcesoperator-worker-7d96r                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-crsht                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-jp9mw                  2/2     Running   0          97s
pod/secondary-scheduler-847cb74f84-9whlm                1/1     Running   0          10m

NAME                                          DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR                     AGE
daemonset.apps/numaresourcesoperator-worker   3         3         3       3            3           node-role.kubernetes.io/worker=   98s

NAME                                               READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/numaresources-controller-manager   1/1     1            1           12m
deployment.apps/secondary-scheduler                1/1     1            1           10m

NAME                                                          DESIRED   CURRENT   READY   AGE
replicaset.apps/numaresources-controller-manager-7d9d84c58d   1         1         1       12m
replicaset.apps/secondary-scheduler-847cb74f84                1         1         1       10m

NAME                                                    READY   STATUS    RESTARTS   AGE
pod/numaresources-controller-manager-7d9d84c58d-qk2mr   1/1     Running   0          12m
pod/numaresourcesoperator-worker-7d96r                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-crsht                  2/2     Running   0          97s
pod/numaresourcesoperator-worker-jp9mw                  2/2     Running   0          97s
pod/secondary-scheduler-847cb74f84-9whlm                1/1     Running   0          10m

NAME                                          DESIRED   CURRENT   READY   UP-TO-DATE   AVAILABLE   NODE SELECTOR                     AGE
daemonset.apps/numaresourcesoperator-worker   3         3         3       3            3           node-role.kubernetes.io/worker=   98s

NAME                                               READY   UP-TO-DATE   AVAILABLE   AGE
deployment.apps/numaresources-controller-manager   1/1     1            1           12m
deployment.apps/secondary-scheduler                1/1     1            1           10m

NAME                                                          DESIRED   CURRENT   READY   AGE
replicaset.apps/numaresources-controller-manager-7d9d84c58d   1         1         1       12m
replicaset.apps/secondary-scheduler-847cb74f84                1         1         1       10m

Copy to Clipboard

Toggle word wrap

其他资源

配置镜像 registry 存储库镜像

9.5.3. 配置单个 NUMA 节点策略
复制链接

NUMA Resources Operator 要求在集群中配置单个 NUMA 节点策略。这可以通过创建并应用性能配置集或配置 KubeletConfig 来实现。

注意

配置单个 NUMA 节点策略的首选方法是应用性能配置集。您可以使用 Performance Profile Creator (PPC) 工具来创建性能配置集。如果在集群中创建了性能配置集，它会自动创建 KubeletConfig 和 tuned 配置集等其他调优组件。

有关创建性能配置集的更多信息，请参阅"添加资源"部分中的"关于 Performance Profile Creator"。

9.5.4. 性能配置集示例
复制链接

此 YAML 示例显示使用性能配置集创建器(PPC) 工具创建的性能配置集：

apiVersion: performance.openshift.io/v2
kind: PerformanceProfile
metadata:
  name: performance
spec:
  cpu:
    isolated: "3"
    reserved: 0-2
  machineConfigPoolSelector:
    pools.operator.machineconfiguration.openshift.io/worker: "" 
  nodeSelector:
    node-role.kubernetes.io/worker: ""
  numa:
    topologyPolicy: single-numa-node 
  realTimeKernel:
    enabled: true
  workloadHints:
    highPowerConsumption: true
    perPodPowerManagement: false
    realTime: true

apiVersion: performance.openshift.io/v2
kind: PerformanceProfile
metadata:
  name: performance
spec:
  cpu:
    isolated: "3"
    reserved: 0-2
  machineConfigPoolSelector:
    pools.operator.machineconfiguration.openshift.io/worker: ""

1


  nodeSelector:
    node-role.kubernetes.io/worker: ""
  numa:
    topologyPolicy: single-numa-node

2


  realTimeKernel:
    enabled: true
  workloadHints:
    highPowerConsumption: true
    perPodPowerManagement: false
    realTime: true

Copy to Clipboard

Toggle word wrap

1: 这应该与您要在其上配置 NUMA Resources Operator 的 MachineConfigPool 匹配。例如，您可能已创建了名为 worker-cnf 的 MachineConfigPool，它指定一组运行电信工作负载的节点。
2: topologyPolicy 必须设置为 single-numa-node。在运行 PPC 工具时，将 topology-manager-policy 参数设置为 single-numa-node 来确保情况如此。

9.5.5. 创建 KubeletConfig CR
复制链接

配置单个 NUMA 节点策略的建议方法是应用性能配置集。另一种方法是创建并应用 KubeletConfig 自定义资源 (CR)，如下所示。

流程

创建 KubeletConfig 自定义资源 (CR) 来为机器配置集配置 pod admittance 策略：

将以下 YAML 保存到 nro-kubeletconfig.yaml 文件中：

apiVersion: machineconfiguration.openshift.io/v1
kind: KubeletConfig
metadata:
  name: worker-tuning
spec:
  machineConfigPoolSelector:
    matchLabels:
      pools.operator.machineconfiguration.openshift.io/worker: "" 
  kubeletConfig:
    cpuManagerPolicy: "static" 
    cpuManagerReconcilePeriod: "5s"
    reservedSystemCPUs: "0,1" 
    memoryManagerPolicy: "Static" 
    evictionHard:
      memory.available: "100Mi"
    kubeReserved:
      memory: "512Mi"
    reservedMemory:
      - numaNode: 0
        limits:
          memory: "1124Mi"
    systemReserved:
      memory: "512Mi"
    topologyManagerPolicy: "single-numa-node"

apiVersion: machineconfiguration.openshift.io/v1
kind: KubeletConfig
metadata:
  name: worker-tuning
spec:
  machineConfigPoolSelector:
    matchLabels:
      pools.operator.machineconfiguration.openshift.io/worker: ""

1


  kubeletConfig:
    cpuManagerPolicy: "static"

2


    cpuManagerReconcilePeriod: "5s"
    reservedSystemCPUs: "0,1"

3


    memoryManagerPolicy: "Static"

4


    evictionHard:
      memory.available: "100Mi"
    kubeReserved:
      memory: "512Mi"
    reservedMemory:
      - numaNode: 0
        limits:
          memory: "1124Mi"
    systemReserved:
      memory: "512Mi"
    topologyManagerPolicy: "single-numa-node"

5

Copy to Clipboard

Toggle word wrap

1: 调整此标签以匹配 NUMAResourcesOperator CR 中的 machineConfigPoolSelector。
2: 对于 cpuManagerPolicy，static 必须使用小写 s。
3: 根据您的节点上的 CPU 进行调整。
4: 对于 memoryManagerPolicy，Static 必须使用大写 S。
5: topologyManagerPolicy 必须设置为 single-numa-node。

运行以下命令来创建 KubeletConfig CR：
```
oc create -f nro-kubeletconfig.yaml
```
```
$ oc create -f nro-kubeletconfig.yaml
```
Copy to Clipboard Toggle word wrap
注意
应用性能配置集或 KubeletConfig 会自动触发节点重新引导。如果没有触发重启，您可以通过查看处理节点组的 KubeletConfig 中的标签来排除此问题。

9.5.6. 使用 NUMA 感知调度程序调度工作负载
复制链接

现在，安装了 topo-aware-scheduler，会应用 NUMAResourcesOperator 和 NUMAResourcesScheduler CR，并且集群具有匹配的性能配置集或 kubeletconfig，您可以使用部署 CR 使用 NUMA 感知调度程序来调度工作负载，该 CR 可以指定最低所需的资源来处理工作负载。

以下示例部署使用 NUMA 感知调度示例工作负载。

先决条件

安装 OpenShift CLI（oc）。
以具有 cluster-admin 特权的用户身份登录。

流程

运行以下命令，获取集群中部署的 NUMA 感知调度程序名称：

oc get numaresourcesschedulers.nodetopology.openshift.io numaresourcesscheduler -o json | jq '.status.schedulerName'

$ oc get numaresourcesschedulers.nodetopology.openshift.io numaresourcesscheduler -o json | jq '.status.schedulerName'

Copy to Clipboard

Toggle word wrap

输出示例

"topo-aware-scheduler"

"topo-aware-scheduler"

Copy to Clipboard

Toggle word wrap

创建一个 Deployment CR，它使用名为 topo-aware-scheduler 的调度程序，例如：

将以下 YAML 保存到 nro-deployment.yaml 文件中：

apiVersion: apps/v1
kind: Deployment
metadata:
  name: numa-deployment-1
  namespace: openshift-numaresources
spec:
  replicas: 1
  selector:
    matchLabels:
      app: test
  template:
    metadata:
      labels:
        app: test
    spec:
      schedulerName: topo-aware-scheduler 
      containers:
      - name: ctnr
        image: quay.io/openshifttest/hello-openshift:openshift
        imagePullPolicy: IfNotPresent
        resources:
          limits:
            memory: "100Mi"
            cpu: "10"
          requests:
            memory: "100Mi"
            cpu: "10"
      - name: ctnr2
        image: registry.access.redhat.com/rhel:latest
        imagePullPolicy: IfNotPresent
        command: ["/bin/sh", "-c"]
        args: [ "while true; do sleep 1h; done;" ]
        resources:
          limits:
            memory: "100Mi"
            cpu: "8"
          requests:
            memory: "100Mi"
            cpu: "8"

apiVersion: apps/v1
kind: Deployment
metadata:
  name: numa-deployment-1
  namespace: openshift-numaresources
spec:
  replicas: 1
  selector:
    matchLabels:
      app: test
  template:
    metadata:
      labels:
        app: test
    spec:
      schedulerName: topo-aware-scheduler

1


      containers:
      - name: ctnr
        image: quay.io/openshifttest/hello-openshift:openshift
        imagePullPolicy: IfNotPresent
        resources:
          limits:
            memory: "100Mi"
            cpu: "10"
          requests:
            memory: "100Mi"
            cpu: "10"
      - name: ctnr2
        image: registry.access.redhat.com/rhel:latest
        imagePullPolicy: IfNotPresent
        command: ["/bin/sh", "-c"]
        args: [ "while true; do sleep 1h; done;" ]
        resources:
          limits:
            memory: "100Mi"
            cpu: "8"
          requests:
            memory: "100Mi"
            cpu: "8"

Copy to Clipboard

Toggle word wrap

1: schedulerName 必须与集群中部署的 NUMA 感知调度程序的名称匹配，如 topo-aware-scheduler。

运行以下命令来创建 Deployment CR：
```
oc create -f nro-deployment.yaml
```
```
$ oc create -f nro-deployment.yaml
```
Copy to Clipboard Toggle word wrap

验证

验证部署是否成功：

oc get pods -n openshift-numaresources

$ oc get pods -n openshift-numaresources

Copy to Clipboard

Toggle word wrap

输出示例

NAME                                                READY   STATUS    RESTARTS   AGE
numa-deployment-1-6c4f5bdb84-wgn6g                  2/2     Running   0          5m2s
numaresources-controller-manager-7d9d84c58d-4v65j   1/1     Running   0          18m
numaresourcesoperator-worker-7d96r                  2/2     Running   4          43m
numaresourcesoperator-worker-crsht                  2/2     Running   2          43m
numaresourcesoperator-worker-jp9mw                  2/2     Running   2          43m
secondary-scheduler-847cb74f84-fpncj                1/1     Running   0          18m

NAME                                                READY   STATUS    RESTARTS   AGE
numa-deployment-1-6c4f5bdb84-wgn6g                  2/2     Running   0          5m2s
numaresources-controller-manager-7d9d84c58d-4v65j   1/1     Running   0          18m
numaresourcesoperator-worker-7d96r                  2/2     Running   4          43m
numaresourcesoperator-worker-crsht                  2/2     Running   2          43m
numaresourcesoperator-worker-jp9mw                  2/2     Running   2          43m
secondary-scheduler-847cb74f84-fpncj                1/1     Running   0          18m

Copy to Clipboard

Toggle word wrap

运行以下命令，验证 topo-aware-scheduler 是否在调度部署的 pod：

oc describe pod numa-deployment-1-6c4f5bdb84-wgn6g -n openshift-numaresources

$ oc describe pod numa-deployment-1-6c4f5bdb84-wgn6g -n openshift-numaresources

Copy to Clipboard

Toggle word wrap

输出示例

Events:
  Type    Reason          Age    From                  Message
  ----    ------          ----   ----                  -------
  Normal  Scheduled       4m45s  topo-aware-scheduler  Successfully assigned openshift-numaresources/numa-deployment-1-6c4f5bdb84-wgn6g to worker-1

Events:
  Type    Reason          Age    From                  Message
  ----    ------          ----   ----                  -------
  Normal  Scheduled       4m45s  topo-aware-scheduler  Successfully assigned openshift-numaresources/numa-deployment-1-6c4f5bdb84-wgn6g to worker-1

Copy to Clipboard

Toggle word wrap

注意

请求的资源超过可用于调度的部署将失败，并显示 MinimumReplicasUnavailable 错误。当所需资源可用时，部署会成功。Pod 会一直处于 Pending 状态，直到所需资源可用。

验证是否为节点列出了预期的分配资源。

运行以下命令，识别运行部署 pod 的节点：

oc get pods -n openshift-numaresources -o wide

$ oc get pods -n openshift-numaresources -o wide

Copy to Clipboard

Toggle word wrap

输出示例

NAME                                 READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
numa-deployment-1-6c4f5bdb84-wgn6g   0/2     Running   0          82m   10.128.2.50   worker-1   <none>  <none>

NAME                                 READY   STATUS    RESTARTS   AGE   IP            NODE     NOMINATED NODE   READINESS GATES
numa-deployment-1-6c4f5bdb84-wgn6g   0/2     Running   0          82m   10.128.2.50   worker-1   <none>  <none>

Copy to Clipboard

Toggle word wrap

运行以下命令，使用运行部署 Pod 的节点的名称。

oc describe noderesourcetopologies.topology.node.k8s.io worker-1

$ oc describe noderesourcetopologies.topology.node.k8s.io worker-1

Copy to Clipboard

Toggle word wrap

输出示例

...

Zones:
  Costs:
    Name:   node-0
    Value:  10
    Name:   node-1
    Value:  21
  Name:     node-0
  Resources:
    Allocatable:  39
    Available:    21 
    Capacity:     40
    Name:         cpu
    Allocatable:  6442450944
    Available:    6442450944
    Capacity:     6442450944
    Name:         hugepages-1Gi
    Allocatable:  134217728
    Available:    134217728
    Capacity:     134217728
    Name:         hugepages-2Mi
    Allocatable:  262415904768
    Available:    262206189568
    Capacity:     270146007040
    Name:         memory
  Type:           Node

...

Zones:
  Costs:
    Name:   node-0
    Value:  10
    Name:   node-1
    Value:  21
  Name:     node-0
  Resources:
    Allocatable:  39
    Available:    21

1


    Capacity:     40
    Name:         cpu
    Allocatable:  6442450944
    Available:    6442450944
    Capacity:     6442450944
    Name:         hugepages-1Gi
    Allocatable:  134217728
    Available:    134217728
    Capacity:     134217728
    Name:         hugepages-2Mi
    Allocatable:  262415904768
    Available:    262206189568
    Capacity:     270146007040
    Name:         memory
  Type:           Node

Copy to Clipboard

Toggle word wrap

1: 由于已分配给有保证 pod 的资源，可用的容量会减少。

通过保证 pod 使用的资源从 noderesourcetopologies.topology.node.k8s.io 中列出的可用节点资源中减去。

对具有 Best-effort 或 Burstable 服务质量 (qosClass) 的pod 的资源分配不会反映在 noderesourcetopologies.topology.node.k8s.io 下的 NUMA 节点资源中。如果 pod 消耗的资源没有反映在节点资源计算中，请验证 pod 的 Guaranteed 具有 qosClass，且 CPU 请求是一个整数值，而不是十进制值。您可以运行以下命令来验证 pod 是否具有 Guaranteed 的 qosClass ：
```
oc get pod numa-deployment-1-6c4f5bdb84-wgn6g -n openshift-numaresources -o jsonpath="{ .status.qosClass }"
```
```
$ oc get pod numa-deployment-1-6c4f5bdb84-wgn6g -n openshift-numaresources -o jsonpath="{ .status.qosClass }"
```
Copy to Clipboard Toggle word wrap
输出示例
```
Guaranteed
```
```
Guaranteed
```
Copy to Clipboard Toggle word wrap

9.5.1. 创建 NUMAResourcesOperator 自定义资源
复制链接

9.5.2. 部署 NUMA 感知辅助 pod 调度程序
复制链接

9.5.3. 配置单个 NUMA 节点策略
复制链接

9.5.4. 性能配置集示例
复制链接

9.5.5. 创建 KubeletConfig CR
复制链接

9.5.6. 使用 NUMA 感知调度程序调度工作负载
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

9.5. 调度 NUMA 感知工作负载

9.5.1. 创建 NUMAResourcesOperator 自定义资源复制链接链接已复制到粘贴板!

9.5.2. 部署 NUMA 感知辅助 pod 调度程序复制链接链接已复制到粘贴板!

9.5.3. 配置单个 NUMA 节点策略复制链接链接已复制到粘贴板!

9.5.4. 性能配置集示例复制链接链接已复制到粘贴板!

9.5.5. 创建 KubeletConfig CR复制链接链接已复制到粘贴板!

9.5.6. 使用 NUMA 感知调度程序调度工作负载复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

9.5.1. 创建 NUMAResourcesOperator 自定义资源
复制链接

9.5.2. 部署 NUMA 感知辅助 pod 调度程序
复制链接

9.5.3. 配置单个 NUMA 节点策略
复制链接

9.5.4. 性能配置集示例
复制链接

9.5.5. 创建 KubeletConfig CR
复制链接

9.5.6. 使用 NUMA 感知调度程序调度工作负载
复制链接