9.17.11.2. 关于使用 NVIDIA GPU Operator
您可以将 NVIDIA GPU Operator 与 OpenShift Virtualization 搭配使用来快速置备 worker 节点来运行启用了 GPU 的虚拟机 (VM)。NVIDIA GPU Operator 在 OpenShift Container Platform 集群中管理 NVIDIA GPU 资源,并自动执行为 GPU 工作负载准备节点时所需的任务。
在将应用程序工作负载部署到 GPU 资源前,您必须安装如 NVIDIA 驱动程序,如启用计算统一设备架构 (CUDA)、Kubernetes 设备插件、容器运行时和其他功能,如自动节点标签和监控。通过自动化这些任务,您可以快速扩展基础架构的 GPU 容量。NVIDIA GPU Operator 有助于置备复杂智能和机器学习(AI/ML) 工作负载。
9.17.11.2.1. 配置介质设备的选项 复制链接链接已复制到粘贴板!
使用 NVIDIA GPU Operator 时有两种可用的配置介质设备的方法。红帽测试的方法使用 OpenShift Virtualization 功能来调度介质设备,而 NVIDIA 方法只使用 GPU Operator。
- 使用 NVIDIA GPU Operator 配置介质设备
- 这个方法只使用 NVIDIA GPU Operator 来配置介质设备。要使用这个方法,请参阅 NVIDIA 文档中的带有 OpenShift Virtualization 的 NVIDIA GPU Operator。
- 使用 OpenShift Virtualization 配置介质设备
这个方法由红帽测试,使用 OpenShift Virtualization 的功能来配置介质设备。在这种情况下,NVIDIA GPU Operator 仅用于使用 NVIDIA vGPU Manager 安装驱动程序。GPU Operator 不配置介质设备。
使用 OpenShift Virtualization 方法时,您仍遵循 NVIDIA 文档 配置 GPU Operator。但是,此方法与 NVIDIA 文档的以下方法不同:
您不能覆盖
HyperConverged自定义资源(CR) 中的默认disableMDEVConfiguration: false设置。重要按照 NVIDIA 文档所述 设置此功能门可防止 OpenShift Virtualization 配置介质设备。
您必须配置
ClusterPolicy清单,使其与以下示例匹配:kind: ClusterPolicy apiVersion: nvidia.com/v1 metadata: name: gpu-cluster-policy spec: operator: defaultRuntime: crio use_ocp_driver_toolkit: true initContainer: {} sandboxWorkloads: enabled: true defaultWorkload: vm-vgpu driver: enabled: false dcgmExporter: {} dcgm: enabled: true daemonsets: {} devicePlugin: {} gfd: {} migManager: enabled: true nodeStatusExporter: enabled: true mig: strategy: single toolkit: enabled: true validator: plugin: env: - name: WITH_WORKLOAD value: "true" vgpuManager: enabled: true repository: <vgpu_container_registry> image: <vgpu_image_name> version: <nvidia_vgpu_manager_version> vgpuDeviceManager: enabled: false sandboxDevicePlugin: enabled: false vfioManager: enabled: false-
spec.drive.enabled设置为false。虚拟机不需要这样做。 -
spec.vgpuManager.enabled设置为true。如果要将 vGPU 与虚拟机搭配使用,则需要此项。 -
spec.vgpuManager.repository设置为 registry 值。 -
spec.vgpuManager.version设置为您从 NVIDIA 网站下载的 vGPU 驱动程序的版本,并用于构建镜像。 -
spec.vgpuDeviceManager.enabled设置为false,以允许 OpenShift Virtualization 配置介质设备而不是 NVIDIA GPU Operator。 -
spec.sandboxDevicePlugin.enabled设置为false,以防止发现并广告 vGPU 设备到 kubelet。 -
spec.vfioManager.enabled被设置为false,以防止加载vfio-pci驱动程序。相反,请按照 OpenShift Virtualization 文档来配置 PCI 透传。
-