7.2. Intel Gaudi AI 加速器集成

要加快高性能深度学习模型，您可以将 Intel Gaudi AI 加速器集成到 OpenShift AI。此集成使您的数据科学家能够通过自定义配置的工作台实例使用与 Intel Gaudi AI 加速器关联的 Gaudi 库和软件。

Intel Gaudi AI 加速器为深度学习工作负载提供优化的性能，最新的 Gaudi 3 设备在培训速度和能源效率方面提供了显著改进。这些加速器适用于在 OpenShift AI 上运行机器学习和 AI 应用程序的企业。

在 OpenShift AI 中启用 Intel Gaudi AI Accelerators 前，您必须完成以下步骤：

从 OperatorHub 安装最新版本的 Intel Gaudi AI Accelerator Operator。
为 Intel Gaudi AI Accelerators 创建和配置自定义工作台镜像。OpenShift AI 不包含 Gaudi 加速器的预构建工作台镜像。
为环境中的每个 Intel Gaudi AI 设备手动定义和配置硬件配置文件。

红帽支持高达 Intel Gaudi 3 的 Intel Gaudi 设备。特别是，Intel Gaudi 3 加速器具有以下优点：

改进了培训吞吐量：通过使用高级数个处理内核和增加内存带宽，降低培训大型模型所需的时间。
能源效率：在保持高性能的同时，降低大规模部署的操作成本。
可扩展架构：针对分布式培训配置在多个节点间扩展。

您的 OpenShift 平台必须支持 EC2 DL1 实例，以便在 Amazon EC2 DL1 实例中使用 Intel Gaudi AI 加速器。在启用加速器后，您可以在工作台实例或模型中使用 Intel Gaudi AI 加速器，创建自定义工作台镜像并配置硬件配置集。

要识别部署中存在的 Intel Gaudi AI Accelerators，请使用 lspci 工具。如需更多信息，请参阅 lspci (8)- Linux man page。

重要

在您的部署中存在 Intel Gaudi AI Accelerators，如 lspci 实用程序所示，无法保证设备可以使用。您必须确保所有安装和配置步骤都成功完成。

7.2.1. 启用 Intel Gaudi AI Accelerators
复制链接

在 OpenShift AI 中使用 Intel Gaudi AI Accelerators 之前，您必须安装所需的依赖项，部署 Intel Gaudi AI Accelerator Operator，并配置环境。

先决条件

您已登陆到 OpenShift。
在 OpenShift 中具有 cluster-admin 角色。
已安装 Intel Gaudi 加速器，并确认它已在您的环境中检测到。
如果您在 Amazon Web Services (AWS)上运行，您的 OpenShift 环境支持 EC2 DL1 实例。
已安装 OpenShift 命令行界面(CLI)。

流程

安装最新版本的 Intel Gaudi AI Accelerator Operator，如 Intel Gaudi AI Operator OpenShift 安装中所述。
默认情况下，OpenShift 将每个 pod 的 PID 限制设置为 4096。如果您的工作负载需要更多处理能力，如使用多个 Gaudi Accelerator 或将 vLLM 与 Ray 搭配使用时，您必须手动提高每个 pod PID 限制，以避免 资源临时不可用 的错误。这些错误会因为 PID 耗尽而发生。红帽建议将此限制设置为 32768，但超过 20000 的值就足够了。
1. 运行以下命令来标记节点：
  oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
  Copy to Clipboard Toggle word wrap
2. 可选：要防止受影响节点上的工作负载分布，您可以将节点标记为不可调度，然后排空它以准备维护。如需更多信息，请参阅了解如何在节点上撤离 pod。
3. 创建 custom-kubelet-pidslimit.yaml KubeletConfig 资源文件：
  oc create -f custom-kubelet-pidslimit.yaml
  Copy to Clipboard Toggle word wrap
4. 使用以下 YAML 代码填充该文件。将 PodPidsLimit 值设置为 32768 ：
  apiVersion: machineconfiguration.openshift.io/v1 kind: KubeletConfig metadata: name: custom-kubelet-pidslimit spec: kubeletConfig: PodPidsLimit: 32768 machineConfigPoolSelector: matchLabels: custom-kubelet: set-pod-pid-limit-kubelet
  Copy to Clipboard Toggle word wrap
5. 应用配置：
  oc apply -f custom-kubelet-pidslimit.yaml
  Copy to Clipboard Toggle word wrap
  此操作会导致节点重新引导。如需更多信息，请参阅了解节点重新引导。
6. 可选：如果之前将节点标记为不可调度，您可以在节点重启后再次进行调度。
为 Intel Gaudi AI Accelerators 创建自定义工作台镜像，如创建自定义工作台镜像中所述。
安装 Intel Gaudi AI Accelerator Operator 后，创建一个硬件配置集，如使用硬件配置集中所述。

验证

从 Administrator 视角中，进入 Operators Installed Operators 页面。确认出现以下 Operator：

Intel Gaudi AI Accelerator
节点功能发现(NFD)
内核模块管理(KMM)

7.2. Intel Gaudi AI 加速器集成

7.2.1. 启用 Intel Gaudi AI Accelerators
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.2. Intel Gaudi AI 加速器集成

7.2.1. 启用 Intel Gaudi AI Accelerators复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

7.2.1. 启用 Intel Gaudi AI Accelerators
复制链接