第 7 章 使用硬件配置集
硬件配置集目前仅在 Red Hat OpenShift AI 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围
在 Red Hat OpenShift AI 中,您可以在具有特定硬件配置的 worker 节点上调度用户工作负载,如硬件加速器、仅 CPU 节点或专用内存分配。使用硬件配置集,您可以显式定义这些硬件资源,使工作负载精确到特定的节点,并提高了资源管理效率。
默认情况下,这个功能在仪表板导航菜单中会被隐藏。要在仪表板导航菜单中显示 Settings OdhDashboardConfig
自定义资源(CR)中将 disableHardwareProfiles
值设置为 false
。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。
您可以使用硬件配置集创建带有硬件标识符、显式资源分配限制(CPU、内存和加速器)、容限和节点选择器的配置集。在具有异构硬件的环境中,这些功能特别有用,包括多个 GPU 类型、仅 CPU 的配置、内存密集型工作负载甚至单节点部署。这个目标调度可显著提高资源利用率、降低开销并优化成本,特别是在复杂环境中,比如具有不同硬件的集群。
要开始,请联络您的集群管理员来识别集群中可用的硬件资源。
要为您的数据科学家配置特定的硬件配置,以便在 OpenShift AI 中使用,您必须创建一个关联的硬件配置集。硬件配置集是 OpenShift 上的自定义资源定义(CRD),它带有一个 HardwareProfile 资源,并定义硬件规格。您可以通过在 OpenShift AI 仪表板上选择 Settings
创建并启用硬件配置集后,用户可以在部署工作台、模型保留工作负载和管道(如果适用)选择用户界面中的硬件配置集。
7.1. 创建硬件配置集 复制链接链接已复制到粘贴板!
要为您的数据科学家配置特定的硬件配置,以便在 OpenShift AI 中使用,您必须创建一个关联的硬件配置集。
先决条件
- 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
- 已安装相关的硬件,并确认它已在您的系统中被检测到。
流程
在 OpenShift AI 仪表板中点 Settings
Hardware profiles。 此时会出现 硬件配置文件 页面,显示现有的硬件配置文件。要在包含相关硬件配置集的行中启用或禁用现有硬件配置文件,请点击 Enabled 列中的切换。
点 Create hardware profile。
此时会出现 Create hardware profile 页面。
- 在 Name 字段中输入硬件配置文件的名称。
- 可选: 要更改 Kubernetes 资源的默认名称,请点 Edit resource name,然后在 Resource name 字段中输入名称。创建后无法编辑资源名称。
- 可选:在 Description 字段中输入硬件配置集的描述。
在 Visiblity 部分中,设置硬件配置集可见性级别:
- 要访问 OpenShift AI 的所有区域的硬件配置文件,请选中" 可见任何位置 "单选按钮。
- 点 Limited visibility 单选按钮来限制您的数据科学家可以使用硬件配置文件的 OpenShift AI 区域。
可选:配置节点资源请求限制:
单击 Add resource。
此时会打开 Add resource 对话框。
- 在 Resource label 字段中,输入唯一资源标签。
- 在 Resource identifier 字段中,输入唯一资源标识符。
- 从 Resource type 字段中,从列表中选择资源类型。
- 在 Default 字段中,输入默认资源请求限制。这个值必须等于最小和最大限制。
- 在 Minimum allowed 字段中,输入用户可以请求的最小资源数量。
在 Maximum allowed 字段中,输入用户可以请求的最大资源数:
- 要设置特定的最大请求限制,请点 Set maximum limit 单选按钮,并输入值。
- 要设置任何最大请求限制,请点击 No maximum limit 单选按钮。
- 点击 Add。
可选:添加节点选择器,将 pod 调度到具有匹配标签的节点。
单击 Add node selector。
此时会打开 Add node selector 对话框。
- 在 Key 字段中输入节点选择键。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
- 在 Value 字段中输入节点选择值。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
- 点击 Add。
可选:添加容限来调度具有匹配污点的 pod。
单击 Add toleration。
此时会打开 Add toleration 对话框。
从 Operator 列表中,选择以下选项之一:
- 等于 键/值/effect 参数必须匹配。这是默认值。
- exists - key/effect 参数必须匹配。您必须保留一个空 value 参数,该参数与任何参数匹配。
在 Effect 列表中选择以下选项之一:
- None
- NoSchedule - 与污点不匹配的新 pod 不会调度到该节点上。该节点上现有的 pod 会保留。
- PreferNoSchedule - 与污点不匹配的新 pod 可能会调度到该节点上,但调度程序会尝试。该节点上现有的 pod 会保留。
- 与污点不匹配的 NoExecute - New pod 无法调度到该节点上。节点上没有匹配容限的现有 pod 将被移除。
- 在 Key 字段中,输入 toleration 键。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
- 在 Value 字段中,输入容限值。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
在 Toleration Seconds 部分中,选择以下选项之一来指定 pod 保持与具有节点状况的节点绑定的时长:
- 对于任何 pod,则永久绑定到节点。
- 自定义 value - 输入一个值(以秒为单位),以定义 pod 保持与具有节点状况的节点绑定的时长。
- 点击 Add。
- 点 Create hardware profile。
验证
- 硬件配置文件会出现在 Hardware profiles 页面中。
- 硬件配置集会出现在 Create workbench 页面中的 Hardware profiles 列表中。
-
硬件配置集会出现在
HardwareProfile
自定义资源定义(CRD)的详细信息页面中。