9.17.11.2. 关于使用 NVIDIA GPU Operator


您可以将 NVIDIA GPU Operator 与 OpenShift Virtualization 搭配使用来快速置备 worker 节点来运行启用了 GPU 的虚拟机 (VM)。NVIDIA GPU Operator 在 OpenShift Container Platform 集群中管理 NVIDIA GPU 资源,并自动执行为 GPU 工作负载准备节点时所需的任务。

在将应用程序工作负载部署到 GPU 资源前,您必须安装如 NVIDIA 驱动程序,如启用计算统一设备架构 (CUDA)、Kubernetes 设备插件、容器运行时和其他功能,如自动节点标签和监控。通过自动化这些任务,您可以快速扩展基础架构的 GPU 容量。NVIDIA GPU Operator 有助于置备复杂智能和机器学习(AI/ML) 工作负载。

9.17.11.2.1. 配置介质设备的选项

使用 NVIDIA GPU Operator 时有两种可用的配置介质设备的方法。红帽测试的方法使用 OpenShift Virtualization 功能来调度介质设备,而 NVIDIA 方法只使用 GPU Operator。

使用 NVIDIA GPU Operator 配置介质设备
这个方法只使用 NVIDIA GPU Operator 来配置介质设备。要使用这个方法,请参阅 NVIDIA 文档中的带有 OpenShift Virtualization 的 NVIDIA GPU Operator
使用 OpenShift Virtualization 配置介质设备

这个方法由红帽测试,使用 OpenShift Virtualization 的功能来配置介质设备。在这种情况下,NVIDIA GPU Operator 仅用于使用 NVIDIA vGPU Manager 安装驱动程序。GPU Operator 不配置介质设备。

使用 OpenShift Virtualization 方法时,您仍遵循 NVIDIA 文档 配置 GPU Operator。但是,此方法与 NVIDIA 文档的以下方法不同:

  • 您不能覆盖 HyperConverged 自定义资源(CR) 中的默认 disableMDEVConfiguration: false 设置。

    重要

    按照 NVIDIA 文档所述 设置此功能门可防止 OpenShift Virtualization 配置介质设备。

  • 您必须配置 ClusterPolicy 清单,使其与以下示例匹配:

    kind: ClusterPolicy
    apiVersion: nvidia.com/v1
    metadata:
      name: gpu-cluster-policy
    spec:
      operator:
        defaultRuntime: crio
        use_ocp_driver_toolkit: true
        initContainer: {}
      sandboxWorkloads:
        enabled: true
        defaultWorkload: vm-vgpu
      driver:
        enabled: false
      dcgmExporter: {}
      dcgm:
        enabled: true
      daemonsets: {}
      devicePlugin: {}
      gfd: {}
      migManager:
        enabled: true
      nodeStatusExporter:
        enabled: true
      mig:
        strategy: single
      toolkit:
        enabled: true
      validator:
        plugin:
          env:
            - name: WITH_WORKLOAD
              value: "true"
      vgpuManager:
        enabled: true
        repository: <vgpu_container_registry>
        image: <vgpu_image_name>
        version: <nvidia_vgpu_manager_version>
      vgpuDeviceManager:
        enabled: false
      sandboxDevicePlugin:
        enabled: false
      vfioManager:
        enabled: false
    • spec.drive.enabled 设置为 false。虚拟机不需要这样做。
    • spec.vgpuManager.enabled 设置为 true。如果要将 vGPU 与虚拟机搭配使用,则需要此项。
    • spec.vgpuManager.repository 设置为 registry 值。
    • spec.vgpuManager.version 设置为您从 NVIDIA 网站下载的 vGPU 驱动程序的版本,并用于构建镜像。
    • spec.vgpuDeviceManager.enabled 设置为 false,以允许 OpenShift Virtualization 配置介质设备而不是 NVIDIA GPU Operator。
    • spec.sandboxDevicePlugin.enabled 设置为 false,以防止发现并广告 vGPU 设备到 kubelet。
    • spec.vfioManager.enabled 被设置为 false,以防止加载 vfio-pci 驱动程序。相反,请按照 OpenShift Virtualization 文档来配置 PCI 透传。
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

关于红帽文档

Legal Notice

Theme

© 2026 Red Hat
返回顶部