第 7 章 使用硬件配置集


重要

硬件配置集目前仅在 Red Hat OpenShift AI 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

在 Red Hat OpenShift AI 中,您可以在具有特定硬件配置的 worker 节点上调度用户工作负载,如硬件加速器、仅 CPU 节点或专用内存分配。使用硬件配置集,您可以显式定义这些硬件资源,使工作负载精确到特定的节点,并提高了资源管理效率。

重要

默认情况下,这个功能在仪表板导航菜单中会被隐藏。要在仪表板导航菜单中显示 Settings Hardware profiles 选项,以及与硬件配置集关联的其他用户界面组件,请在 OpenShift 中的 OdhDashboardConfig 自定义资源(CR)中将 disableHardwareProfiles 值设置为 false。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板

您可以使用硬件配置集创建带有硬件标识符、显式资源分配限制(CPU、内存和加速器)、容限和节点选择器的配置集。在具有异构硬件的环境中,这些功能特别有用,包括多个 GPU 类型、仅 CPU 的配置、内存密集型工作负载甚至单节点部署。这个目标调度可显著提高资源利用率、降低开销并优化成本,特别是在复杂环境中,比如具有不同硬件的集群。

要开始,请联络您的集群管理员来识别集群中可用的硬件资源。

要为您的数据科学家配置特定的硬件配置,以便在 OpenShift AI 中使用,您必须创建一个关联的硬件配置集。硬件配置集是 OpenShift 上的自定义资源定义(CRD),它带有一个 HardwareProfile 资源,并定义硬件规格。您可以通过在 OpenShift AI 仪表板上选择 Settings Hardware profiles 来创建和管理硬件配置集。

创建并启用硬件配置集后,用户可以在部署工作台、模型保留工作负载和管道(如果适用)选择用户界面中的硬件配置集。

7.1. 创建硬件配置集

要为您的数据科学家配置特定的硬件配置,以便在 OpenShift AI 中使用,您必须创建一个关联的硬件配置集。

先决条件

  • 您已以具有 OpenShift AI 管理员特权的用户身份登录到 OpenShift AI。
  • 已安装相关的硬件,并确认它已在您的系统中被检测到。

流程

  1. 在 OpenShift AI 仪表板中点 Settings Hardware profiles

    此时会出现 硬件配置文件 页面,显示现有的硬件配置文件。要在包含相关硬件配置集的行中启用或禁用现有硬件配置文件,请点击 Enabled 列中的切换。

  2. Create hardware profile

    此时会出现 Create hardware profile 页面。

  3. Name 字段中输入硬件配置文件的名称。
  4. 可选: 要更改 Kubernetes 资源的默认名称,请点 Edit resource name,然后在 Resource name 字段中输入名称。创建后无法编辑资源名称。
  5. 可选:在 Description 字段中输入硬件配置集的描述。
  6. Visiblity 部分中,设置硬件配置集可见性级别:

    1. 要访问 OpenShift AI 的所有区域的硬件配置文件,请选中" 可见任何位置 "单选按钮。
    2. Limited visibility 单选按钮来限制您的数据科学家可以使用硬件配置文件的 OpenShift AI 区域。
  7. 可选:配置节点资源请求限制:

    1. 单击 Add resource

      此时会打开 Add resource 对话框。

    2. Resource label 字段中,输入唯一资源标签。
    3. Resource identifier 字段中,输入唯一资源标识符。
    4. Resource type 字段中,从列表中选择资源类型。
    5. Default 字段中,输入默认资源请求限制。这个值必须等于最小和最大限制。
    6. Minimum allowed 字段中,输入用户可以请求的最小资源数量。
    7. Maximum allowed 字段中,输入用户可以请求的最大资源数:

      1. 要设置特定的最大请求限制,请点 Set maximum limit 单选按钮,并输入值。
      2. 要设置任何最大请求限制,请点击 No maximum limit 单选按钮。
    8. 点击 Add
  8. 可选:添加节点选择器,将 pod 调度到具有匹配标签的节点。

    1. 单击 Add node selector

      此时会打开 Add node selector 对话框。

    2. Key 字段中输入节点选择键。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    3. Value 字段中输入节点选择值。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    4. 点击 Add
  9. 可选:添加容限来调度具有匹配污点的 pod。

    1. 单击 Add toleration

      此时会打开 Add toleration 对话框。

    2. Operator 列表中,选择以下选项之一:

      • 等于 键/值/effect 参数必须匹配。这是默认值。
      • exists - key/effect 参数必须匹配。您必须保留一个空 value 参数,该参数与任何参数匹配。
    3. Effect 列表中选择以下选项之一:

      • None
      • NoSchedule - 与污点不匹配的新 pod 不会调度到该节点上。该节点上现有的 pod 会保留。
      • PreferNoSchedule - 与污点不匹配的新 pod 可能会调度到该节点上,但调度程序会尝试。该节点上现有的 pod 会保留。
      • 与污点不匹配的 NoExecute - New pod 无法调度到该节点上。节点上没有匹配容限的现有 pod 将被移除。
    4. Key 字段中,输入 toleration 键。key 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    5. Value 字段中,输入容限值。value 必须以字母或数字开头,可以包含字母、数字、连字符、句点和下划线。
    6. Toleration Seconds 部分中,选择以下选项之一来指定 pod 保持与具有节点状况的节点绑定的时长:

      • 对于任何 pod,则永久绑定到节点。
      • 自定义 value - 输入一个值(以秒为单位),以定义 pod 保持与具有节点状况的节点绑定的时长。
    7. 点击 Add
  10. Create hardware profile

验证

  • 硬件配置文件会出现在 Hardware profiles 页面中。
  • 硬件配置集会出现在 Create workbench 页面中的 Hardware profiles 列表中。
  • 硬件配置集会出现在 HardwareProfile 自定义资源定义(CRD)的详细信息页面中。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat