第 7 章 启用 NVIDIA GPU
在 OpenShift AI 中使用 NVIDIA GPU 之前,您必须安装 NVIDIA GPU Operator。
重要
NVIDIA GPU 附加组件不再被支持。反之,通过安装 NVIDIA GPU Operator 来启用 GPU。如果您的部署有一个之前安装的 NVIDIA GPU 附加组件,在安装 NVIDIA GPU Operator 前,请使用 Red Hat OpenShift Cluster Manager 从集群中卸载 NVIDIA GPU 附加组件。
先决条件
- 已登陆到您的 OpenShift 集群。
-
在 OpenShift 集群中具有
cluster-admin
角色。
流程
- 要在 OpenShift 集群上启用 GPU 支持,请按照 NVIDIA 文档中的 Red Hat OpenShift Container Platform 上的 NVIDIA GPU Operator 的说明进行操作。
删除 migration-gpu-status ConfigMap。
- 在 OpenShift Web 控制台中,切换到 Administrator 视角。
- 将项目设置为 All Projects 或 redhat-ods-applications,以确保您可以看到适当的 ConfigMap。
- 搜索 migration-gpu-status ConfigMap。
点操作菜单 (⋮) ,并从列表中选择 Delete ConfigMap。
此时会出现 Delete ConfigMap 对话框。
- 检查对话框,并确认您删除正确的 ConfigMap。
- 点击 Delete。
重启仪表板 replicaset。
- 在 OpenShift Web 控制台中,切换到 Administrator 视角。
-
点 Workloads
Deployments。 - 将项目设置为 All Projects 或 redhat-ods-applications,以确保您可以看到适当的部署。
- 搜索 rhods-dashboard 部署。
- 点操作菜单(HBAC),然后从列表中选择 Restart Rollout。
- 等待 Status 列指出 rollout 中的所有 pod 都完全重启。
验证
-
NVIDIA GPU Operator 会出现在 OpenShift Web 控制台的 Operators
Installed Operators 页面中。 -
reset migration-gpu-status 实例存在于
AcceleratorProfile
自定义资源定义(CRD)详情页面上的 Instances 选项卡中。
注意
在 OpenShift AI 中,红帽支持在同一集群中使用加速器。红帽不支持在加速器之间远程直接内存访问(RDMA),或使用网络上的加速器,例如使用 NVIDIA GPUDirect 或 NVLink 等技术。
安装 NVIDIA GPU Operator 后,创建一个加速器配置集,如 使用加速器配置集 中所述。