8.2. 使用 Kueue 配置工作负载管理


要在 OpenShift AI 中使用工作负载排队,请安装 Red Hat build of Kue Operator,并激活 OpenShift AI 中的 Kue 集成。

先决条件

  • 具有集群管理员特权。
  • 您使用 OpenShift 4.18 或更高版本。
  • 已为集群安装并配置了 Red Hat OpenShift 的 cert-manager Operator
  • 已安装 OpenShift 命令行界面(CLI)。请参阅安装 OpenShift CLI

流程

  1. 在一个终端窗口中,登录到 OpenShift CLI,如下例所示:

    $ oc login <openshift_cluster_url> -u <admin_username> -p <password>
    Copy to Clipboard Toggle word wrap
  2. 如 Red Hat build of Kueue 文档所述,在 OpenShift 集群上安装 Red Hat build of Kueue Operator。
  3. 激活 Kueue 集成。您可以将预定义名称用于默认集群队列和默认本地队列,或者指定自定义名称。

    • 要使用预定义的队列名称(默认),请运行以下命令:将 <operator-namespace& gt; 替换为您的 Operator 命名空间。默认 operator 命名空间为 redhat-ods-operator

      $ oc patch datasciencecluster default-dsc --type='merge' -p '{"spec":{"components":{"kueue":{"managementState":"Unmanaged"}}}}' -n <operator-namespace>
      Copy to Clipboard Toggle word wrap
    • 要指定自定义队列名称,请运行以下命令。将 <example-cluster-queue><example-local-queue> 替换为您的自定义队列名称,并将 < operator-namespace&gt; 替换为您的 Operator 命名空间。默认 operator 命名空间为 redhat-ods-operator

      $ oc patch datasciencecluster default-dsc --type='merge' -p '{"spec":{"components":{"kueue":{"managementState":"Unmanaged","defaultClusterQueueName":"<example-cluster-queue>","defaultLocalQueueName":"<example-local-queue>"}}}}' -n <operator-namespace>
      Copy to Clipboard Toggle word wrap

验证

  1. 验证红帽构建的 Kueue pod 是否正在运行:

    $ oc get pods -n openshift-kueue-operator
    Copy to Clipboard Toggle word wrap

    您应该看到类似以下示例的输出:

    kueue-controller-manager-d9fc745df-ph77w    1/1     Running
    openshift-kueue-operator-69cfbf45cf-lwtpm   1/1     Running
    Copy to Clipboard Toggle word wrap
  2. 验证是否已创建默认的 ClusterQueue

    $ oc get clusterqueues
    Copy to Clipboard Toggle word wrap

后续步骤

  • 通过创建和修改 ResourceFlavorClusterQueueLocalQueue 对象来配置配额。详情请查看 Red Hat build of Kueue 文档
  • 在仪表板中启用 Kueue,以便用户可以在创建工作负载时选择 Kue-enabled 选项。当启用 Kueue 时,您还会为从仪表板创建的所有新项目启用 Kueue 管理。请参阅在 仪表板中启用 Kue
  • 集群管理员和 OpenShift AI 管理员可以创建硬件配置文件,以便用户可以通过 OpenShift AI 仪表板提交工作负载。请参阅 使用硬件配置文件

8.2.1. 在仪表板中启用 Kueue

在 OpenShift AI 仪表板中启用 Kueue,以便用户可以在创建工作负载时选择 Kue-enabled 选项。

当您在仪表板中启用 Kueue 时,OpenShift AI 会自动为从仪表板创建的所有新项目启用 Kueue 管理。对于这些项目,OpenShift AI 将 kueue.openshift.io/managed=true 标签应用到命名空间,并在不存在时创建一个 LocalQueue 对象。LocalQueue 对象是使用 opendatahub.io/managed=false 注解创建的,因此在创建后不会管理它。集群管理员可以根据需要修改或删除它。然后验证 Webhook 会强制 Kueue-enabled 项目中的任何新的或更新的工作负载资源包括 kueue.x-k8s.io/queue-name 标签。

注意

对于现有项目或使用命令行界面创建的项目,您必须通过将 kueue.openshift.io/managed=true 标签应用到项目命名空间来手动启用 Kueue.openshift.io/managed=true 标签。

$ oc label namespace <project-namespace> kueue.openshift.io/managed=true --overwrite
Copy to Clipboard Toggle word wrap

先决条件

步骤

  1. 在一个终端窗口中,登录到 OpenShift CLI,如下例所示:

    $ oc login <openshift_cluster_url> -u <admin_username> -p <password>
    Copy to Clipboard Toggle word wrap
  2. 更新 OpenShift AI 应用程序命名空间中的 odh-dashboard-config 自定义资源。将 <applications-namespace& gt; 替换为您的 OpenShift AI 应用程序命名空间。默认为 redhat-ods-applications

    $ oc patch odhdashboardconfig odh-dashboard-config \
      -n \<applications-namespace\> \
      --type merge \
      -p {"spec":{"dashboardConfig":{"disableHardwareProfiles":false,"disableKueue":false}}}
    Copy to Clipboard Toggle word wrap

验证

  1. 从 OpenShift AI 仪表板,创建一个新项目。
  2. 验证项目命名空间是否已标记为 Kueue 管理:

    $ oc get ns <project-namespace> -o jsonpath='{.metadata.labels.kueue\.openshift\.io/managed}{"\n"}'
    Copy to Clipboard Toggle word wrap

    输出应该是 true

  3. 确认项目命名空间存在默认的 LocalQueue

    $ oc get localqueues -n <project-namespace>
    Copy to Clipboard Toggle word wrap
  4. 创建一个测试工作负载(如 Notebook),并验证它是否包含 kueue.x-k8s.io/queue-name 标签。

后续步骤

  • 集群管理员和 OpenShift AI 管理员可以创建硬件配置文件,以便用户可以通过 OpenShift AI 仪表板提交工作负载。请参阅 使用硬件配置文件
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部