5.2. 启用 AMD GPU
在 OpenShift AI 中使用 AMD GPU 之前,您必须安装所需的依赖项、部署 AMD GPU Operator 并配置环境。
先决条件
- 您已登陆到 OpenShift。
-
在 OpenShift 中具有
cluster-admin角色。 - 已安装 AMD GPU,并确认在您的环境中检测到它。
- 如果您在 Amazon Web Services (AWS)上运行,您的 OpenShift 环境支持 EC2 DL1 实例。
流程
- 安装最新版本的 AMD GPU Operator,如 在 OpenShift 上安装 AMD GPU Operator 所述。
- 安装 AMD GPU Operator 后,配置 Operator 所需的 AMD 驱动程序,如文档: 为 GPU Operator 配置 AMD 驱动程序。
注意
另外,您还可以从 Red Hat Catalog 安装 AMD GPU Operator。如需更多信息,请参阅从 Red Hat Catalog 安装 AMD GPU Operator。
- 安装 AMD GPU Operator 后,创建一个加速器配置集,如 使用加速器配置集 中所述。
+
重要
默认情况下,硬件配置集在仪表板导航菜单和用户界面中隐藏,而加速器配置集保持可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings OdhDashboardConfig 自定义资源(CR)中将 disableHardwareProfiles 值设置为 false。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。
验证
从 Administrator 视角中,进入 Operators
- AMD GPU Operator
- 节点功能发现(NFD)
- 内核模块管理(KMM)
注意
确保遵循所有步骤进行正确的驱动程序安装和配置。错误的安装和配置可能会阻止 AMD GPU 可以被识别或正常运行。