7.2. Intel Gaudi AI 加速器集成


要加快高性能深度学习模型,您可以将 Intel Gaudi AI 加速器集成到 OpenShift AI。此集成使您的数据科学家能够通过自定义配置的工作台实例使用与 Intel Gaudi AI 加速器关联的 Gaudi 库和软件。

Intel Gaudi AI 加速器为深度学习工作负载提供优化的性能,最新的 Gaudi 3 设备在培训速度和能源效率方面提供了显著改进。这些加速器适用于在 OpenShift AI 上运行机器学习和 AI 应用程序的企业。

在 OpenShift AI 中启用 Intel Gaudi AI Accelerators 前,您必须完成以下步骤:

  1. 从 OperatorHub 安装最新版本的 Intel Gaudi AI Accelerator Operator。
  2. 为 Intel Gaudi AI Accelerators 创建和配置自定义工作台镜像。OpenShift AI 不包含 Gaudi 加速器的预构建工作台镜像。
  3. 为环境中的每个 Intel Gaudi AI 设备手动定义和配置硬件配置文件。

红帽支持高达 Intel Gaudi 3 的 Intel Gaudi 设备。特别是,Intel Gaudi 3 加速器具有以下优点:

  • 改进了培训吞吐量:通过使用高级数个处理内核和增加内存带宽,降低培训大型模型所需的时间。
  • 能源效率:在保持高性能的同时,降低大规模部署的操作成本。
  • 可扩展架构:针对分布式培训配置在多个节点间扩展。

您的 OpenShift 平台必须支持 EC2 DL1 实例,以便在 Amazon EC2 DL1 实例中使用 Intel Gaudi AI 加速器。在启用加速器后,您可以在工作台实例或模型中使用 Intel Gaudi AI 加速器,创建自定义工作台镜像并配置硬件配置集。

要识别部署中存在的 Intel Gaudi AI Accelerators,请使用 lspci 工具。如需更多信息,请参阅 lspci (8)- Linux man page

重要

在您的部署中存在 Intel Gaudi AI Accelerators,如 lspci 实用程序所示,无法保证设备可以使用。您必须确保所有安装和配置步骤都成功完成。

7.2.1. 启用 Intel Gaudi AI Accelerators

在 OpenShift AI 中使用 Intel Gaudi AI Accelerators 之前,您必须安装所需的依赖项,部署 Intel Gaudi AI Accelerator Operator,并配置环境。

先决条件

  • 您已登陆到 OpenShift。
  • 在 OpenShift 中具有 cluster-admin 角色。
  • 已安装 Intel Gaudi 加速器,并确认它已在您的环境中检测到。
  • 如果您在 Amazon Web Services (AWS)上运行,您的 OpenShift 环境支持 EC2 DL1 实例。
  • 已安装 OpenShift 命令行界面(CLI)。

流程

  1. 安装最新版本的 Intel Gaudi AI Accelerator Operator,如 Intel Gaudi AI Operator OpenShift 安装 中所述。
  2. 默认情况下,OpenShift 将每个 pod 的 PID 限制设置为 4096。如果您的工作负载需要更多处理能力,如使用多个 Gaudi Accelerator 或将 vLLM 与 Ray 搭配使用时,您必须手动提高每个 pod PID 限制,以避免 资源临时不可用 的错误。这些错误会因为 PID 耗尽而发生。红帽建议将此限制设置为 32768,但超过 20000 的值就足够了。

    1. 运行以下命令来标记节点:

      oc label node <node_name> custom-kubelet=set-pod-pid-limit-kubelet
      Copy to Clipboard Toggle word wrap
    2. 可选: 要防止受影响节点上的工作负载分布,您可以将节点标记为不可调度,然后排空它以准备维护。如需更多信息,请参阅 了解如何在节点上撤离 pod
    3. 创建 custom-kubelet-pidslimit.yaml KubeletConfig 资源文件:

      oc create -f custom-kubelet-pidslimit.yaml
      Copy to Clipboard Toggle word wrap
    4. 使用以下 YAML 代码填充该文件。将 PodPidsLimit 值设置为 32768 :

      apiVersion: machineconfiguration.openshift.io/v1
      kind: KubeletConfig
      metadata:
        name: custom-kubelet-pidslimit
      spec:
        kubeletConfig:
          PodPidsLimit: 32768
        machineConfigPoolSelector:
          matchLabels:
            custom-kubelet: set-pod-pid-limit-kubelet
      Copy to Clipboard Toggle word wrap
    5. 应用配置:

      oc apply -f custom-kubelet-pidslimit.yaml
      Copy to Clipboard Toggle word wrap

      此操作会导致节点重新引导。如需更多信息,请参阅了解节点重新引导

    6. 可选:如果之前将节点标记为不可调度,您可以在节点重启后再次进行调度。
  3. 为 Intel Gaudi AI Accelerators 创建自定义工作台镜像,如 创建自定义工作台镜像 中所述。
  4. 安装 Intel Gaudi AI Accelerator Operator 后,创建一个硬件配置集,如 使用硬件配置集 中所述。

验证

Administrator 视角中,进入 Operators Installed Operators 页面。确认出现以下 Operator:

  • Intel Gaudi AI Accelerator
  • 节点功能发现(NFD)
  • 内核模块管理(KMM)
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat