第 7 章启用加速器

7.1. 启用 NVIDIA GPU
复制链接

在 OpenShift AI 中使用 NVIDIA GPU 之前，您必须安装 NVIDIA GPU Operator。

重要

如果您在断开连接的自管理的环境中使用 OpenShift AI，请参阅启用加速器。

先决条件

已登陆到 OpenShift 集群。
在 OpenShift 集群中具有 cluster-admin 角色。
已安装 NVIDIA GPU，并确认在您的环境中检测到它。

流程

要在 OpenShift 集群上启用 GPU 支持，请按照 NVIDIA 文档中的 Red Hat OpenShift Container Platform 上的 NVIDIA GPU Operator 的说明进行操作。
重要
安装 Node Feature Discovery (NFD) Operator 后，您必须创建一个 NodeFeatureDiscovery 实例。另外，在安装 NVIDIA GPU Operator 后，您必须创建一个 ClusterPolicy，并使用默认值填充。
删除 migration-gpu-status ConfigMap。
1. 在 OpenShift Web 控制台中，切换到 Administrator 视角。
2. 将项目设置为 All Projects 或 redhat-ods-applications，以确保您可以看到适当的 ConfigMap。
3. 搜索 migration-gpu-status ConfigMap。
4. 点操作菜单 (⋮) ，并从列表中选择 Delete ConfigMap。
  此时会出现 Delete ConfigMap 对话框。
5. 检查对话框，并确认您删除正确的 ConfigMap。
6. 点击 Delete。
重启仪表板 replicaset。
1. 在 OpenShift Web 控制台中，切换到 Administrator 视角。
2. 点 Workloads Deployments。
3. 将项目设置为 All Projects 或 redhat-ods-applications，以确保您可以看到适当的部署。
4. 搜索 rhods-dashboard 部署。
5. 点操作菜单(HBAC)，然后从列表中选择 Restart Rollout。
6. 等待 Status 列指出 rollout 中的所有 pod 都完全重启。

验证

reset migration-gpu-status 实例存在于 AcceleratorProfile 自定义资源定义(CRD)详情页面上的 Instances 选项卡中。
从 Administrator 视角中，进入 Operators Installed Operators 页面。确认出现以下 Operator：
- NVIDIA GPU
- 节点功能发现(NFD)
- 内核模块管理(KMM)

在完成 Node Feature Discovery (NFD)和 NVIDIA GPU Operator 后，GPU 会被正确检测到。OpenShift 命令行界面(CLI)显示 GPU worker 节点的适当输出。例如：

# Expected output when the GPU is detected properly
oc describe node <node name>
...
Capacity:
  cpu:                4
  ephemeral-storage:  313981932Ki
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             16076568Ki
  nvidia.com/gpu:     1
  pods:               250
Allocatable:
  cpu:                3920m
  ephemeral-storage:  288292006229
  hugepages-1Gi:      0
  hugepages-2Mi:      0
  memory:             12828440Ki
  nvidia.com/gpu:     1
  pods:               250

注意

在 OpenShift AI 中，红帽支持在同一集群中使用加速器。

从 Red Hat OpenShift AI 2.19 开始，红帽只支持 NVIDIA GPU 的远程直接内存访问(RDMA)，使它们可以在以太网或 InfiniBand 网络中使用 NVIDIA GPUDirect RDMA 来直接相互通信。

安装 NVIDIA GPU Operator 后，创建一个加速器配置集，如使用加速器配置集中所述。

重要

默认情况下，硬件配置集在仪表板导航菜单和用户界面中隐藏，而加速器配置集保持可见。另外，与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings Hardware profiles 选项，以及与硬件配置集关联的用户界面组件，请在 OpenShift 中的 OdhDashboardConfig 自定义资源(CR)中将 disableHardwareProfiles 值设置为 false。有关设置仪表板配置选项的更多信息，请参阅自定义仪表板。

第 7 章启用加速器

7.1. 启用 NVIDIA GPU
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 7 章 启用加速器

7.1. 启用 NVIDIA GPU复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 7 章启用加速器

7.1. 启用 NVIDIA GPU
复制链接