7.3. AMD GPU 集成
您可以将 AMD GPU 与 OpenShift AI 搭配使用,以加快 AI 和机器学习(ML)工作负载。AMD GPU 提供高性能计算功能,允许用户处理大型数据集、培训深度网络,以及更有效地执行复杂的 inference 任务。
将 AMD GPU 与 OpenShift AI 集成涉及以下组件:
- ROCm workbench 镜像 :使用 ROCm workbench 镜像来简化 AMD GPU 上的 AI/ML 工作流。这些镜像包括使用 AMD ROCm 平台优化的库和框架,为 PyTorch 和 TensorFlow 启用高性能工作负载。预配置镜像减少了设置时间,并为 GPU 加速的开发和试验提供优化的环境。
- AMD GPU Operator :AMD GPU Operator 通过自动化驱动程序安装、设备插件设置和 GPU 资源管理节点标签来简化 GPU 集成。它确保 OpenShift 和 AMD 硬件之间的兼容性,同时启用 GPU 的工作负载扩展。
7.3.1. 验证集群中的 AMD GPU 可用性 复制链接链接已复制到粘贴板!
在继续 AMD GPU Operator 安装过程前,您可以验证 OpenShift 集群中节点上是否存在 AMD GPU 设备。您可以使用 lspci
或 oc
等命令来确认硬件和资源可用性。
先决条件
- 有对 OpenShift 集群的管理访问权限。
- 您有一个正在运行的 OpenShift 集群,其中的节点装有 AMD GPU。
-
您可以访问 OpenShift CLI (
oc
),以及对节点的终端访问。
流程
使用 OpenShift CLI 验证 GPU 资源是否可分配量:
列出集群中的所有节点,以使用 AMD GPU 识别节点:
oc get nodes
oc get nodes
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 请注意您希望存在 AMD GPU 的节点的名称。
描述节点以检查其资源分配:
oc describe node <node_name>
oc describe node <node_name>
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 在输出中,找到 Capacity 和 Allocatable 部分,并确认列出了
amd.com/gpu
。例如:Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
使用
lspci
命令检查 AMD GPU 设备:登录该节点:
oc debug node/<node_name> chroot /host
oc debug node/<node_name> chroot /host
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 运行
lspci
命令并搜索部署中支持的 AMD 设备。例如:lspci | grep -E "MI210|MI250|MI300"
lspci | grep -E "MI210|MI250|MI300"
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 验证输出是否包含其中一个 AMD GPU 模型。例如:
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
可选:如果节点上安装了 ROCm 堆栈,请使用
rocminfo
命令:rocminfo
rocminfo
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 确认 ROCm 工具输出 AMD GPU 的详细信息,如计算单元、内存和驱动程序状态。
验证
-
oc describe node <node_name&
gt; 命令在 Capacity 和 Allocatable 下列出amd.com/gpu
。 -
lspci
命令输出将 AMD GPU 识别为与其中一个指定模型匹配的 PCI 设备(如 MI210、MI250、MI250、MI300)。 -
可选:
rocminfo
工具提供详细的 GPU 信息,确认驱动程序和硬件配置。
7.3.2. 启用 AMD GPU 复制链接链接已复制到粘贴板!
在 OpenShift AI 中使用 AMD GPU 之前,您必须安装所需的依赖项、部署 AMD GPU Operator 并配置环境。
先决条件
- 您已登陆到 OpenShift。
-
在 OpenShift 中具有
cluster-admin
角色。 - 已安装 AMD GPU,并确认在您的环境中检测到它。
- 如果您在 Amazon Web Services (AWS)上运行,您的 OpenShift 环境支持 EC2 DL1 实例。
流程
- 安装最新版本的 AMD GPU Operator,如 在 OpenShift 上安装 AMD GPU Operator 所述。
- 安装 AMD GPU Operator 后,配置 Operator 所需的 AMD 驱动程序,如文档: 为 GPU Operator 配置 AMD 驱动程序。
另外,您还可以从 Red Hat Catalog 安装 AMD GPU Operator。如需更多信息,请参阅从 Red Hat Catalog 安装 AMD GPU Operator。
- 安装 AMD GPU Operator 后,创建一个硬件配置集,如 使用硬件配置集 中所述。
验证
从 Administrator 视角中,进入 Operators
- AMD GPU Operator
- 节点功能发现(NFD)
- 内核模块管理(KMM)
确保遵循所有步骤进行正确的驱动程序安装和配置。错误的安装和配置可能会阻止 AMD GPU 可以被识别或正常运行。