5.2. 使用加速器配置集
要为数据科学家配置用于在 OpenShift AI 中使用的加速器,您必须创建一个关联的加速器配置集。加速器配置集是 OpenShift 上的自定义资源定义(CRD),它有一个 AcceleratorProfile 资源,并定义加速器规格。您可以通过在 OpenShift AI 仪表板中选择 Settings
对于部署的新加速器,您必须为每个加速器手动配置加速器配置集。如果您的部署在升级前包含加速器,则相关的加速器配置集会保留在升级后。您可以通过将特定的加速器配置集分配给自定义笔记本镜像来管理数据科学家的加速器。本例显示了 Habana Gaudi 1 加速器配置集的代码:
加速器配置集代码会出现在 AcceleratorProfile
自定义资源定义(CRD)的详细信息页面上。有关 加速器配置集属性的更多信息,请参阅下表:
属性 | 类型 | 必填 | 描述 |
---|---|---|---|
displayName | 字符串 | 必填 | 加速器配置文件的显示名称。 |
description | 字符串 | 选填 | 定义加速器配置集的描述性文本。 |
identifier | 字符串 | 必填 | 定义加速器资源的唯一标识符。 |
enabled | 布尔值 | 必填 | 确定 OpenShift AI 中是否看到加速器。 |
容限(tolerations) | Array | 选填 | 可以应用到笔记本并提供使用加速器的运行时的容限。如需有关 OpenShift AI 支持的容限属性的更多信息,请参阅 Toleration v1 core。 |
5.2.1. 查看加速器配置集 复制链接链接已复制到粘贴板!
如果您为 OpenShift AI 定义了加速器配置集,您可以在 Accelerator 配置集 页面中查看、启用和禁用它们。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
在 OpenShift Container Platform 中分配了
cluster-admin
角色。 - 您的部署包含现有的加速器配置集。
步骤
在 OpenShift AI 仪表板中,点 Settings
Accelerator profiles。 此时会出现 加速器配置文件 页面,显示现有的加速器配置文件。
- 检查加速器配置集列表。要启用或禁用加速器配置集,请在包含加速器配置集的行中点 Enable 列中的切换。
验证
- 此时会出现 加速器配置集 页面,显示现有的加速器配置集。
5.2.2. 创建加速器配置集 复制链接链接已复制到粘贴板!
要为数据科学家配置用于在 OpenShift AI 中使用的加速器,您必须创建一个关联的加速器配置集。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
在 OpenShift Container Platform 中分配了
cluster-admin
角色。
步骤
在 OpenShift AI 仪表板中,点 Settings
Accelerator profiles。 此时会出现 加速器配置文件 页面,显示现有的加速器配置文件。要启用或禁用现有的加速器配置集,请在包含相关加速器配置集的行中点 Enable 列中的切换。
点 Create accelerator profile。
此时会出现 Create accelerator 配置集 对话框。
- 在 Name 字段中输入 accelerator 配置集的名称。
- 在 Identifier 字段中输入唯一字符串,用于标识与加速器配置集关联的硬件加速器。
- 可选:在 Description 字段中输入加速器配置集的描述。
- 要在创建后立即启用或禁用加速器配置集,请点击 Enable 列中的切换。
可选:添加容限来调度具有匹配污点的 pod。
点 Add toleration。
此时会打开 Add toleration 对话框。
在 Operator 列表中,选择以下选项之一:
- equal - 键/值/effect 参数必须匹配。这是默认值。
- exists - key/effect 参数必须匹配。您必须保留一个空 value 参数,该参数与 any 匹配。
在 Effect 列表中,选择以下选项之一:
- None
- NoSchedule - 与污点不匹配的新 pod 不会调度到该节点上。该节点上现有的 pod 会保留。
- PreferNoSchedule - 与污点不匹配的新 pod 可能会调度到该节点上,但调度程序会尝试。该节点上现有的 pod 会保留。
- NoExecute - 与污点不匹配的新 pod 无法调度到该节点上。节点上没有匹配容限的现有 pod 将被移除。
- 在 Key 字段中,输入容限键。key 是任意字符串,最多 253 个字符。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
- 在 Value 字段中输入容限值。该值是任意字符串,最多 63 个字符。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
在 Toleration Seconds 部分中,选择以下选项之一来指定 pod 保持与具有节点状况的节点绑定的时长。
- 永久地 - Pod 保持永久绑定到节点。
- Custom 值 - 输入值(以秒为单位),以定义 pod 保持与具有节点状况的节点绑定的时长。
- 点击 Add。
- 点 Create accelerator profile。
验证
- Accelerator 配置集会出现在 Accelerator 配置集 页面中。
- Accelerator 列表会出现在 启动笔记本服务器页面中。选择加速器后,会出现 Number of accelerators 字段,您可以使用它来选择笔记本服务器的加速器数量。
-
加速器配置集会出现在
AcceleratorProfile
自定义资源定义(CRD)的详细信息页面上。
5.2.3. 更新加速器配置集 复制链接链接已复制到粘贴板!
您可以更新部署中的现有加速器配置集。您可能想要更改重要的识别信息,如显示名称、标识符或描述。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
在 OpenShift Container Platform 中分配了
cluster-admin
角色。 - 部署中存在 accelerator 配置集。
步骤
在 OpenShift AI 仪表板中,点 Settings
Notebook images。 此时会出现 Notebook images 页面。以前导入的 notebook 镜像会被显示。要启用或禁用之前导入的 notebook 镜像,请在包含相关 notebook 镜像的行中点 Enable 列中的切换。
点操作菜单(需要),然后从列表中选择 Edit。
这会打开 Edit accelerator 配置集 对话框。
- 在 Name 字段中,更新 accelerator 配置集名称。
- 在 Identifier 字段中,更新唯一字符串,用于标识与加速器配置文件关联的硬件加速器(如果适用)。
- 可选:在 Description 字段中,更新 accelerator 配置集。
- 要在创建后立即启用或禁用加速器配置集,请点击 Enable 列中的切换。
可选:添加容限来调度具有匹配污点的 pod。
点 Add toleration。
此时会打开 Add toleration 对话框。
在 Operator 列表中,选择以下选项之一:
- equal - 键/值/effect 参数必须匹配。这是默认值。
- exists - key/effect 参数必须匹配。您必须保留一个空 value 参数,该参数与 any 匹配。
在 Effect 列表中,选择以下选项之一:
- None
- NoSchedule - 与污点不匹配的新 pod 不会调度到该节点上。该节点上现有的 pod 会保留。
- PreferNoSchedule - 与污点不匹配的新 pod 可能会调度到该节点上,但调度程序会尝试。该节点上现有的 pod 会保留。
- NoExecute - 与污点不匹配的新 pod 无法调度到该节点上。节点上没有匹配容限的现有 pod 将被移除。
- 在 Key 字段中,输入容限键。key 是任意字符串,最多 253 个字符。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
- 在 Value 字段中输入容限值。该值是任意字符串,最多 63 个字符。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
在 Toleration Seconds 部分中,选择以下选项之一来指定 pod 保持与具有节点状况的节点绑定的时长。
- 永久地 - Pod 保持永久绑定到节点。
- Custom 值 - 输入值(以秒为单位),以定义 pod 保持与具有节点状况的节点绑定的时长。
- 点击 Add。
如果您的加速器配置集包含现有的容限,您可以编辑它们。
- 点击包含您要编辑的容限的行中的操作菜单(RCU),并从列表中选择 Edit。
- 完成适用的字段,以更新容限的详细信息。
- 点 Update。
- 点 Update accelerator 配置集。
验证
- 如果您的加速器配置集有新的标识信息,则此信息会出现在 启动笔记本服务器页面的 加速器 列表中。
5.2.4. 删除加速器配置集 复制链接链接已复制到粘贴板!
要丢弃不再需要的加速器配置集,您可以删除它们,使其不会出现在仪表板中。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
在 OpenShift Container Platform 中分配了
cluster-admin
角色。 - 要在部署中存在您要删除的加速器配置集。
步骤
在 OpenShift AI 仪表板中,点 Settings
Accelerator profiles。 此时会出现 加速器配置文件 页面,显示现有的加速器配置文件。
点您要删除的加速器配置集旁的操作菜单(需要),然后点 Delete。
此时会打开 Delete accelerator 配置集 对话框。
- 在文本字段中输入 加速器配置文件的名称,以确认您想要删除它。
- 点击 Delete。
验证
- Accelerator 配置集不再出现在加速器配置集 页面中。
5.2.5. 为笔记本镜像配置推荐的加速器 复制链接链接已复制到粘贴板!
为了帮助您向数据科学家指定最合适的加速器,您可以将推荐的标签配置为出现在仪表板中。
先决条件
- 已登陆到 OpenShift Container Platform。
-
在 OpenShift Container Platform 中具有
cluster-admin
角色。 - 部署中有现有的笔记本镜像。
步骤
在 OpenShift AI 仪表板中,点 Settings
Notebook images。 此时会出现 Notebook images 页面。以前导入的 notebook 镜像会被显示。
点操作菜单(需要),然后从列表中选择 Edit。
此时会打开 Update notebook 镜像 对话框。
- 从 加速器标识符 列表中,选择一个标识符来设置其加速器,如使用 notebook 镜像的建议。如果笔记本镜像只包含一个加速器标识符,则默认显示标识符名称。
点 Update。
注意如果您已经为笔记本镜像配置了加速器标识符,您可以通过创建关联的加速器配置集为笔记本镜像指定推荐的加速器。要做到这一点,请点击包含 notebook 镜像所在行上的 Create profile,并完成相关字段。如果笔记本镜像不包含加速器标识符,您必须在创建关联的加速器配置集前手动配置。
验证
- 当您的数据科学家选择带有特定笔记本镜像的加速器时,对应的加速器旁边会出现一个标签,表示其兼容性。
5.2.6. 为服务运行时配置推荐的加速器 复制链接链接已复制到粘贴板!
为了帮助您向数据科学家指定最合适的加速器,您可以为服务运行时配置推荐的加速器标签。
先决条件
- 您已登陆到 Red Hat OpenShift AI。
-
如果您使用专用的 OpenShift AI 组,则作为 OpenShift 中的 admin 组的一部分(例如,
{oai-admin-group}
)。
步骤
在 OpenShift AI 仪表板中点 Settings > Serving runtime。
Serving 运行时 页面将打开,并显示 OpenShift AI 部署中已安装并启用的 model-serving 运行时。默认情况下,OpenShift AI 中预安装并启用 OpenVINO Model Server 运行时。
编辑您要添加推荐的加速器标签的自定义运行时,点操作菜单(需要),然后选择 Edit。
此时会打开带有嵌入式 YAML 编辑器的页面。
注意您不能直接编辑 OpenShift AI 中包含的 OpenVINO Model Server 运行时。但是,您可以 克隆 此运行时并编辑克隆的版本。然后,您可以将编辑的克隆添加为新的自定义运行时。要做到这一点,点 OpenVINO Model Server 旁边的操作菜单,然后选择 Duplicate。
在编辑器中,输入 YAML 代码以应用注解
opendatahub.io/recommended-accelerators
。本例摘录显示了为 NVIDIA GPU 加速器设置推荐的标签的注解:metadata: annotations: opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
metadata: annotations: opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 点 Update。
验证
- 当数据科学家选择带有特定服务运行时的加速器时,对应的加速器旁边会出现一个标签,表示其兼容性。