7.3. AMD GPU 集成

您可以将 AMD GPU 与 OpenShift AI 搭配使用，以加快 AI 和机器学习(ML)工作负载。AMD GPU 提供高性能计算功能，允许用户处理大型数据集、培训深度网络，以及更有效地执行复杂的 inference 任务。

将 AMD GPU 与 OpenShift AI 集成涉及以下组件：

ROCm workbench 镜像 ：使用 ROCm workbench 镜像来简化 AMD GPU 上的 AI/ML 工作流。这些镜像包括使用 AMD ROCm 平台优化的库和框架，为 PyTorch 和 TensorFlow 启用高性能工作负载。预配置镜像减少了设置时间，并为 GPU 加速的开发和试验提供优化的环境。
AMD GPU Operator ：AMD GPU Operator 通过自动化驱动程序安装、设备插件设置和 GPU 资源管理节点标签来简化 GPU 集成。它确保 OpenShift 和 AMD 硬件之间的兼容性，同时启用 GPU 的工作负载扩展。

7.3.1. 验证集群中的 AMD GPU 可用性
复制链接

在继续 AMD GPU Operator 安装过程前，您可以验证 OpenShift 集群中节点上是否存在 AMD GPU 设备。您可以使用 lspci 或 oc 等命令来确认硬件和资源可用性。

先决条件

有对 OpenShift 集群的管理访问权限。
您有一个正在运行的 OpenShift 集群，其中的节点装有 AMD GPU。
您可以访问 OpenShift CLI (oc)，以及对节点的终端访问。

流程

使用 OpenShift CLI 验证 GPU 资源是否可分配量：
1. 列出集群中的所有节点，以使用 AMD GPU 识别节点：
  oc get nodes
  Copy to Clipboard Toggle word wrap
2. 请注意您希望存在 AMD GPU 的节点的名称。
3. 描述节点以检查其资源分配：
  oc describe node <node_name>
  Copy to Clipboard Toggle word wrap
4. 在输出中，找到 Capacity 和 Allocatable 部分，并确认列出了 amd.com/gpu。例如：
  Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
  Copy to Clipboard Toggle word wrap
使用 lspci 命令检查 AMD GPU 设备：
1. 登录该节点：
  oc debug node/<node_name> chroot /host
  Copy to Clipboard Toggle word wrap
2. 运行 lspci 命令并搜索部署中支持的 AMD 设备。例如：
  lspci | grep -E "MI210|MI250|MI300"
  Copy to Clipboard Toggle word wrap
3. 验证输出是否包含其中一个 AMD GPU 模型。例如：
  03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
  Copy to Clipboard Toggle word wrap
可选：如果节点上安装了 ROCm 堆栈，请使用 rocminfo 命令：
```
rocminfo
```
```
rocminfo
```
Copy to Clipboard Toggle word wrap
1. 确认 ROCm 工具输出 AMD GPU 的详细信息，如计算单元、内存和驱动程序状态。

验证

oc describe node <node_name& gt; 命令在 Capacity 和 Allocatable 下列出 amd.com/gpu。
lspci 命令输出将 AMD GPU 识别为与其中一个指定模型匹配的 PCI 设备（如 MI210、MI250、MI250、MI300）。
可选： rocminfo 工具提供详细的 GPU 信息，确认驱动程序和硬件配置。

7.3.2. 启用 AMD GPU
复制链接

在 OpenShift AI 中使用 AMD GPU 之前，您必须安装所需的依赖项、部署 AMD GPU Operator 并配置环境。

先决条件

您已登陆到 OpenShift。
在 OpenShift 中具有 cluster-admin 角色。
已安装 AMD GPU，并确认在您的环境中检测到它。
如果您在 Amazon Web Services (AWS)上运行，您的 OpenShift 环境支持 EC2 DL1 实例。

流程

安装最新版本的 AMD GPU Operator，如在 OpenShift 上安装 AMD GPU Operator 所述。
安装 AMD GPU Operator 后，配置 Operator 所需的 AMD 驱动程序，如文档：为 GPU Operator 配置 AMD 驱动程序。

注意

另外，您还可以从 Red Hat Catalog 安装 AMD GPU Operator。如需更多信息，请参阅从 Red Hat Catalog 安装 AMD GPU Operator。

安装 AMD GPU Operator 后，创建一个加速器配置集，如使用加速器配置集中所述。

重要

默认情况下，硬件配置集在仪表板导航菜单和用户界面中隐藏，而加速器配置集保持可见。另外，与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings Hardware profiles 选项，以及与硬件配置集关联的用户界面组件，请在 OpenShift 中的 OdhDashboardConfig 自定义资源(CR)中将 disableHardwareProfiles 值设置为 false。有关设置仪表板配置选项的更多信息，请参阅自定义仪表板。

验证

从 Administrator 视角中，进入 Operators Installed Operators 页面。确认出现以下 Operator：

AMD GPU Operator
节点功能发现(NFD)
内核模块管理(KMM)

注意

确保遵循所有步骤进行正确的驱动程序安装和配置。错误的安装和配置可能会阻止 AMD GPU 可以被识别或正常运行。

7.3. AMD GPU 集成

7.3.1. 验证集群中的 AMD GPU 可用性
复制链接

7.3.2. 启用 AMD GPU
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.3. AMD GPU 集成

7.3.1. 验证集群中的 AMD GPU 可用性复制链接链接已复制到粘贴板!

7.3.2. 启用 AMD GPU复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.3.1. 验证集群中的 AMD GPU 可用性
复制链接

7.3.2. 启用 AMD GPU
复制链接