5.2. 使用加速器配置集


要为数据科学家配置用于在 OpenShift AI 中使用的加速器,您必须创建一个关联的加速器配置集。加速器配置集是 OpenShift 上的自定义资源定义(CRD),它有一个 AcceleratorProfile 资源,并定义加速器规格。您可以通过在 OpenShift AI 仪表板中选择 Settings Accelerator 配置集 来创建和管理加速器配置集。

对于部署的新加速器,您必须为每个加速器手动配置加速器配置集。如果您的部署在升级前包含加速器,则相关的加速器配置集会保留在升级后。您可以通过将特定的加速器配置集分配给自定义笔记本镜像来管理数据科学家的加速器。本例显示了 Habana Gaudi 1 加速器配置集的代码:

---
apiVersion: dashboard.opendatahub.io/v1alpha
kind: AcceleratorProfile
metadata:
  name: hpu-profile-first-gen-gaudi
spec:
  displayName: Habana HPU - 1st Gen Gaudi
  description: First Generation Habana Gaudi device
  enabled: true
  identifier: habana.ai/gaudi
  tolerations:
    - effect: NoSchedule
      key: habana.ai/gaudi
      operator: Exists
---
Copy to Clipboard Toggle word wrap

加速器配置集代码会出现在 AcceleratorProfile 自定义资源定义(CRD)的详细信息页面上。有关 加速器配置集属性的更多信息,请参阅下表:

Expand
表 5.1. 加速器配置集属性
属性类型必填描述

displayName

字符串

必填

加速器配置文件的显示名称。

description

字符串

选填

定义加速器配置集的描述性文本。

identifier

字符串

必填

定义加速器资源的唯一标识符。

enabled

布尔值

必填

确定 OpenShift AI 中是否看到加速器。

容限(tolerations)

Array

选填

可以应用到笔记本并提供使用加速器的运行时的容限。如需有关 OpenShift AI 支持的容限属性的更多信息,请参阅 Toleration v1 core

5.2.1. 查看加速器配置集

如果您为 OpenShift AI 定义了加速器配置集,您可以在 Accelerator 配置集 页面中查看、启用和禁用它们。

先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 在 OpenShift Container Platform 中分配了 cluster-admin 角色。
  • 您的部署包含现有的加速器配置集。

步骤

  1. 在 OpenShift AI 仪表板中,点 Settings Accelerator profiles

    此时会出现 加速器配置文件 页面,显示现有的加速器配置文件。

  2. 检查加速器配置集列表。要启用或禁用加速器配置集,请在包含加速器配置集的行中点 Enable 列中的切换。

验证

  • 此时会出现 加速器配置集 页面,显示现有的加速器配置集。

5.2.2. 创建加速器配置集

要为数据科学家配置用于在 OpenShift AI 中使用的加速器,您必须创建一个关联的加速器配置集。

先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 在 OpenShift Container Platform 中分配了 cluster-admin 角色。

步骤

  1. 在 OpenShift AI 仪表板中,点 Settings Accelerator profiles

    此时会出现 加速器配置文件 页面,显示现有的加速器配置文件。要启用或禁用现有的加速器配置集,请在包含相关加速器配置集的行中点 Enable 列中的切换。

  2. Create accelerator profile

    此时会出现 Create accelerator 配置集 对话框。

  3. Name 字段中输入 accelerator 配置集的名称。
  4. Identifier 字段中输入唯一字符串,用于标识与加速器配置集关联的硬件加速器。
  5. 可选:在 Description 字段中输入加速器配置集的描述。
  6. 要在创建后立即启用或禁用加速器配置集,请点击 Enable 列中的切换。
  7. 可选:添加容限来调度具有匹配污点的 pod。

    1. Add toleration

      此时会打开 Add toleration 对话框。

    2. Operator 列表中,选择以下选项之一:

      • equal - 键/值/effect 参数必须匹配。这是默认值。
      • exists - key/effect 参数必须匹配。您必须保留一个空 value 参数,该参数与 any 匹配。
    3. Effect 列表中,选择以下选项之一:

      • None
      • NoSchedule - 与污点不匹配的新 pod 不会调度到该节点上。该节点上现有的 pod 会保留。
      • PreferNoSchedule - 与污点不匹配的新 pod 可能会调度到该节点上,但调度程序会尝试。该节点上现有的 pod 会保留。
      • NoExecute - 与污点不匹配的新 pod 无法调度到该节点上。节点上没有匹配容限的现有 pod 将被移除。
    4. Key 字段中,输入容限键。key 是任意字符串,最多 253 个字符。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    5. Value 字段中输入容限值。该值是任意字符串,最多 63 个字符。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    6. Toleration Seconds 部分中,选择以下选项之一来指定 pod 保持与具有节点状况的节点绑定的时长。

      • 永久地 - Pod 保持永久绑定到节点。
      • Custom 值 - 输入值(以秒为单位),以定义 pod 保持与具有节点状况的节点绑定的时长。
    7. 点击 Add
  8. Create accelerator profile

验证

  • Accelerator 配置集会出现在 Accelerator 配置集 页面中。
  • Accelerator 列表会出现在 启动笔记本服务器页面中。选择加速器后,会出现 Number of accelerators 字段,您可以使用它来选择笔记本服务器的加速器数量。
  • 加速器配置集会出现在 AcceleratorProfile 自定义资源定义(CRD)的详细信息页面上。

5.2.3. 更新加速器配置集

您可以更新部署中的现有加速器配置集。您可能想要更改重要的识别信息,如显示名称、标识符或描述。

先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 在 OpenShift Container Platform 中分配了 cluster-admin 角色。
  • 部署中存在 accelerator 配置集。

步骤

  1. 在 OpenShift AI 仪表板中,点 Settings Notebook images

    此时会出现 Notebook images 页面。以前导入的 notebook 镜像会被显示。要启用或禁用之前导入的 notebook 镜像,请在包含相关 notebook 镜像的行中点 Enable 列中的切换。

  2. 点操作菜单(需要),然后从列表中选择 Edit

    这会打开 Edit accelerator 配置集 对话框。

  3. Name 字段中,更新 accelerator 配置集名称。
  4. Identifier 字段中,更新唯一字符串,用于标识与加速器配置文件关联的硬件加速器(如果适用)。
  5. 可选:在 Description 字段中,更新 accelerator 配置集。
  6. 要在创建后立即启用或禁用加速器配置集,请点击 Enable 列中的切换。
  7. 可选:添加容限来调度具有匹配污点的 pod。

    1. Add toleration

      此时会打开 Add toleration 对话框。

    2. Operator 列表中,选择以下选项之一:

      • equal - 键/值/effect 参数必须匹配。这是默认值。
      • exists - key/effect 参数必须匹配。您必须保留一个空 value 参数,该参数与 any 匹配。
    3. Effect 列表中,选择以下选项之一:

      • None
      • NoSchedule - 与污点不匹配的新 pod 不会调度到该节点上。该节点上现有的 pod 会保留。
      • PreferNoSchedule - 与污点不匹配的新 pod 可能会调度到该节点上,但调度程序会尝试。该节点上现有的 pod 会保留。
      • NoExecute - 与污点不匹配的新 pod 无法调度到该节点上。节点上没有匹配容限的现有 pod 将被移除。
    4. Key 字段中,输入容限键。key 是任意字符串,最多 253 个字符。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    5. Value 字段中输入容限值。该值是任意字符串,最多 63 个字符。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    6. Toleration Seconds 部分中,选择以下选项之一来指定 pod 保持与具有节点状况的节点绑定的时长。

      • 永久地 - Pod 保持永久绑定到节点。
      • Custom 值 - 输入值(以秒为单位),以定义 pod 保持与具有节点状况的节点绑定的时长。
    7. 点击 Add
  8. 如果您的加速器配置集包含现有的容限,您可以编辑它们。

    1. 点击包含您要编辑的容限的行中的操作菜单(RCU),并从列表中选择 Edit
    2. 完成适用的字段,以更新容限的详细信息。
    3. Update
  9. Update accelerator 配置集

验证

  • 如果您的加速器配置集有新的标识信息,则此信息会出现在 启动笔记本服务器页面的 加速器 列表中。

5.2.4. 删除加速器配置集

要丢弃不再需要的加速器配置集,您可以删除它们,使其不会出现在仪表板中。

先决条件

  • 您已登陆到 Red Hat OpenShift AI。
  • 在 OpenShift Container Platform 中分配了 cluster-admin 角色。
  • 要在部署中存在您要删除的加速器配置集。

步骤

  1. 在 OpenShift AI 仪表板中,点 Settings Accelerator profiles

    此时会出现 加速器配置文件 页面,显示现有的加速器配置文件。

  2. 点您要删除的加速器配置集旁的操作菜单(需要),然后点 Delete

    此时会打开 Delete accelerator 配置集 对话框。

  3. 在文本字段中输入 加速器配置文件的名称,以确认您想要删除它。
  4. 点击 Delete

验证

  • Accelerator 配置集不再出现在加速器配置集 页面中。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat