7.2. Intel Gaudi AI 加速器集成
要加快高性能深度学习模型,您可以将 Intel Gaudi AI 加速器集成到 OpenShift AI。此集成使您的数据科学家能够通过自定义配置的工作台实例使用与 Intel Gaudi AI 加速器关联的 Gaudi 库和软件。
Intel Gaudi AI 加速器为深度学习工作负载提供优化的性能,最新的 Gaudi 3 设备在培训速度和能源效率方面提供了显著改进。这些加速器适用于在 OpenShift AI 上运行机器学习和 AI 应用程序的企业。
在 OpenShift AI 中启用 Intel Gaudi AI Accelerators 前,您必须完成以下步骤:
- 从 OperatorHub 安装最新版本的 Intel Gaudi AI Accelerator Operator。
- 为 Intel Gaudi AI Accelerators 创建和配置自定义工作台镜像。OpenShift AI 不包含 Gaudi 加速器的预构建工作台镜像。
- 为环境中的每个 Intel Gaudi AI 设备手动定义和配置硬件配置文件。
红帽支持高达 Intel Gaudi 3 的 Intel Gaudi 设备。特别是,Intel Gaudi 3 加速器具有以下优点:
- 改进了培训吞吐量:通过使用高级数个处理内核和增加内存带宽,降低培训大型模型所需的时间。
- 能源效率:在保持高性能的同时,降低大规模部署的操作成本。
- 可扩展架构:针对分布式培训配置在多个节点间扩展。
您的 OpenShift 平台必须支持 EC2 DL1 实例,以便在 Amazon EC2 DL1 实例中使用 Intel Gaudi AI 加速器。在启用加速器后,您可以在工作台实例或模型中使用 Intel Gaudi AI 加速器,创建自定义工作台镜像并配置硬件配置集。
要识别部署中存在的 Intel Gaudi AI Accelerators,请使用 lspci
工具。如需更多信息,请参阅 lspci (8)- Linux man page。
在您的部署中存在 Intel Gaudi AI Accelerators,如 lspci
实用程序所示,无法保证设备可以使用。您必须确保所有安装和配置步骤都成功完成。
7.2.1. 启用 Intel Gaudi AI Accelerators 复制链接链接已复制到粘贴板!
在 OpenShift AI 中使用 Intel Gaudi AI Accelerators 之前,您必须安装所需的依赖项,部署 Intel Gaudi AI Accelerator Operator,并配置环境。
先决条件
- 您已登陆到 OpenShift。
-
在 OpenShift 中具有
cluster-admin
角色。 - 已安装 Intel Gaudi 加速器,并确认它已在您的环境中检测到。
- 如果您在 Amazon Web Services (AWS)上运行,您的 OpenShift 环境支持 EC2 DL1 实例。
- 已安装 OpenShift 命令行界面(CLI)。
流程
- 安装最新版本的 Intel Gaudi AI Accelerator Operator,如 Intel Gaudi AI Operator OpenShift 安装 中所述。
默认情况下,OpenShift 将每个 pod 的 PID 限制设置为 4096。如果您的工作负载需要更多处理能力,如使用多个 Gaudi Accelerator 或将 vLLM 与 Ray 搭配使用时,您必须手动提高每个 pod PID 限制,以避免
资源临时不可用
的错误。这些错误会因为 PID 耗尽而发生。红帽建议将此限制设置为 32768,但超过 20000 的值就足够了。运行以下命令来标记节点:
oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 可选: 要防止受影响节点上的工作负载分布,您可以将节点标记为不可调度,然后排空它以准备维护。如需更多信息,请参阅 了解如何在节点上撤离 pod。
创建
custom-kubelet-pidslimit.yaml
KubeletConfig 资源文件:oc create -f custom-kubelet-pidslimit.yaml
oc create -f custom-kubelet-pidslimit.yaml
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用以下 YAML 代码填充该文件。将
PodPidsLimit
值设置为 32768 :Copy to Clipboard Copied! Toggle word wrap Toggle overflow 应用配置:
oc apply -f custom-kubelet-pidslimit.yaml
oc apply -f custom-kubelet-pidslimit.yaml
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 此操作会导致节点重新引导。如需更多信息,请参阅了解节点重新引导。
- 可选:如果之前将节点标记为不可调度,您可以在节点重启后再次进行调度。
- 为 Intel Gaudi AI Accelerators 创建自定义工作台镜像,如 创建自定义工作台镜像 中所述。
- 安装 Intel Gaudi AI Accelerator Operator 后,创建一个硬件配置集,如 使用硬件配置集 中所述。
验证
从 Administrator 视角中,进入 Operators
- Intel Gaudi AI Accelerator
- 节点功能发现(NFD)
- 内核模块管理(KMM)