搜索

第 8 章 在 OpenShift Data Science 中启用 GPU 支持

download PDF

要确保您的数据科学家可以在其模型中使用计算密集型工作负载,您可以在 OpenShift Data Science 中启用图形处理单元(GPU)。

要使 GPU 在 OpenShift Data Science 中可用,您必须安装 NVIDIA GPU 附加组件。此附加组件找到并启用集群中任何启用了 GPU 的 worker 节点,使 GPU 实例类型可供选择。安装 NVIDIA GPU Add-On 后,并确保集群中启用了 GPU 的 worker 节点,您的数据科学家可以在 Jupyter 中选择一个支持 GPU 的笔记本电脑,以及它们的数据科学工作所需的 GPU 数量。

红帽建议您为具有 nvidia.com/gpu NoSchedule 污点的 GPU 节点使用单独的机器池。

先决条件

  • 您有 OpenShift Cluster Manager 的凭证(https://console.redhat.com/openshift/)。
  • 您在 OpenShift Dedicated 中是 cluster-admins 用户组的一部分。
  • 您已置备了一个集群,其中包含足够的资源来满足 OpenShift Data Science 和 NVIDIA GPU 附加组件的要求。
  • 已安装并登录 Red Hat OpenShift Data Science。
  • 您必须已安装并登录到 OpenShift CLI(oc)。

流程

  1. 导航到 OpenShift Cluster Manager 上的集群。

    1. 登录到 OpenShift Cluster Manager(https://console.redhat.com/openshift/)。
    2. Clusters

      Clusters 页面将打开。

    3. 单击已安装 OpenShift Data Science 的集群名称。

      此时会打开集群的 Details 页面。

  2. 为使用 GPU 的节点添加机器池。

    1. Machine pool 选项卡。
    2. Add machine pool 按钮。

      此时会打开 Add machine pool 窗口。

    3. 指定 Machine 池名称
    4. 设置 Compute 节点实例类型。确保实例类型提供一个或多个 GPU。
    5. 至少 设置一个 Compute 节点数
    6. 点击 Edit node labels 和 taint 以展开 Node labels 部分。
    7. Taints 下,使用 nvidia.com/gpuEffect NoScheduleKey 添加污点。Value 可以设置为任意字符串,例如 true

      注意

      在设置污点时,请确保正确声明污点,且没有拼写错误。

    8. Add machine pool

      您的机器池已创建。

    9. 确认您指定的 Taint 在机器池的 Details 页面中可见,如 nvidia.com/gpu=true:NoSchedule
  3. 安装 NVIDIA GPU Operator。

    1. Add-ons 选项卡。
    2. NVIDIA GPU Operator 卡。
    3. Install

验证

  • 在 OpenShift Cluster Manager 中,在集群的 Add-ons 选项卡下,确认已安装了 NVIDIA GPU Operator。
  • 在 OpenShift Dedicated Web 控制台中,在 Compute Nodes 下,确认新机器池中的每个节点都有 nvidia.com/gpu 污点设置,如 nvidia.com/gpu=true:NoSchedule
  • 检查 Red Hat OpenShift Data Science 中是否有启用了 GPU 的功能。

    • 检查并验证 nvidia-device-plugin-validator 日志。在 OpenShift CLI 中输入以下命令:

      oc logs nvidia-device-plugin-validator-<alpha-numeric-string> -n redhat-gpu-operator

      其中 <alpha-numeric-string> 是一个随机生成的 alpha-numeric 字符串。

      如果验证成功,则会返回以下响应:

      device-plugin validation is successful
    • 红帽建议您运行示例 GPU 应用程序,以确保启用 GPU 的模型可在 Red Hat OpenShift Data Science 上运行。如需更多信息,请参阅运行 GPU 应用程序
    • 在相关 pod 中运行 nvidia-smi 命令来测试示例项目的 GPU 利用率。如需更多信息,请参阅获取 GPU 的信息
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.