第 3 章 安装分布式工作负载组件


要在 OpenShift AI 中使用分布式工作负载功能,您必须安装几个组件。

先决条件

  • 已使用 cluster-admin 角色登录到 OpenShift,您可以访问数据科学项目。
  • 已安装 Red Hat OpenShift AI。
  • 您有足够的资源。除了 安装和部署 OpenShift AI 中描述的最低 OpenShift AI 资源外,还需要 1.6 vCPU 和 2 GiB 内存来部署分布式工作负载基础架构。
  • 您已删除了 CodeFlare Operator 的任何以前安装实例,如 知识库解决方案 如何从数据科学集群中的单独安装的 CodeFlare Operator 迁移
  • 如果要使用图形处理单元(GPU),在 OpenShift AI 中启用了 GPU 支持。请参阅启用 NVIDIA GPU

    注意

    在 OpenShift AI 中,对于分布式工作负载,红帽只支持 NVIDIA GPU 加速器。红帽支持在同一集群中使用加速器。红帽不支持在加速器之间远程直接内存访问(RDMA),或使用网络上的加速器,例如使用 NVIDIA GPUDirect 或 NVLink 等技术。

  • 如果要使用自签名证书,请将它们添加到中央证书颁发机构(CA)捆绑包中,如使用 证书 中所述。不需要额外的配置来将这些证书与分布式工作负载一起使用。集中配置的自签名证书会在以下挂载点的工作负载 pod 中自动可用:

    • 集群范围的 CA 捆绑包:

      /etc/pki/tls/certs/odh-trusted-ca-bundle.crt
      /etc/ssl/certs/odh-trusted-ca-bundle.crt
    • 自定义 CA 捆绑包:

      /etc/pki/tls/certs/odh-ca-bundle.crt
      /etc/ssl/certs/odh-ca-bundle.crt

流程

  1. 在 OpenShift 控制台中,点 Operators Installed Operators
  2. 搜索 Red Hat OpenShift AI Operator,然后点 Operator 名称以打开 Operator 详情页面。
  3. Data Science Cluster 选项卡。
  4. 点默认实例名称(如 default-dsc)打开实例详情页面。
  5. YAML 选项卡显示实例规格。
  6. 启用所需的分布式工作负载组件。在 spec.components 部分中,为所需组件正确设置 managementState 字段:

    • 如果要使用 CodeFlare 框架调优模型,请启用 codeflarekueray 组件。
    • 如果要使用 Kubeflow Training Operator 调优模型,请启用 kuetrainingoperator 组件。
    • 所需的组件列表取决于分布式工作负载是否从管道或笔记本运行,如下表所示。
    表 3.1. 分布式工作负载所需的组件
    组件仅限管道仅限笔记本Pipelines 和笔记本

    codeflare

    受管

    受管

    受管

    dashboard

    受管

    受管

    受管

    datasciencepipelines

    受管

    删除

    受管

    kueue

    受管

    受管

    受管

    ray

    受管

    受管

    受管

    trainingoperator

    受管

    受管

    受管

    workbenches

    删除

    受管

    受管

  7. 点击 Save。片刻后,处于 Managed 状态的组件已就绪。

验证

检查 codeflare-operator-managerkuberay-operatorkueue-controller-manager pod 的状态,如下所示:

  1. 在 OpenShift 控制台中,从 Project 列表中选择 redhat-ods-applications
  2. Workloads Deployments
  3. 搜索 codeflare-operator-manager,kuberay-operator, 和 kueue-controller-manager 部署。在每个情形中,按如下所示检查状态:

    1. 单击部署名称以打开部署详情页面。
    2. Pods 选项卡。
    3. 检查 pod 状态。

      codeflare-operator-manager- <pod-id& gt;、kuberay-operator- &lt;pod-id&gt;、和 kue-controller-manager-<pod-id > pod 的状态为 Running 时,pod 就可以使用。

    4. 要查看每个 pod 的更多信息,请点 pod 名称以打开 pod 详情页面,然后点 Logs 选项卡。

下一步

配置分布式工作负载功能,如 管理分布式工作负载 中所述。

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.