第 4 章 安装分布式工作负载组件
要在 OpenShift AI 中使用分布式工作负载功能,您必须安装几个组件。
先决条件
-
已使用
cluster-admin角色登录到 OpenShift,您可以访问数据科学项目。 - 已安装 Red Hat OpenShift AI。
- 您有足够的资源。除了 安装和部署 OpenShift AI (用于断开连接的环境) 中描述的最低 OpenShift AI 资源外,请参阅 在断开连接的环境中部署 OpenShift AI,您需要 1.6 vCPU 和 2 GiB 内存来部署分布式工作负载基础架构。
- 您已删除了 CodeFlare Operator 的任何以前安装实例,如 知识库解决方案 如何从数据科学集群中的单独安装的 CodeFlare Operator 迁移。
如果要使用图形处理单元(GPU),在 OpenShift AI 中启用了 GPU 支持。如果使用 NVIDIA GPU,请参阅启用 NVIDIA GPU。如果使用 AMD GPU,请参阅 AMD GPU 集成。
注意在 OpenShift AI 中,红帽支持在同一集群中使用加速器。
从 Red Hat OpenShift AI 2.19 开始,红帽只支持 NVIDIA GPU 的远程直接内存访问(RDMA),使它们可以在以太网或 InfiniBand 网络中使用 NVIDIA GPUDirect RDMA 来直接相互通信。
如果要使用自签名证书,请将它们添加到中央证书颁发机构(CA)捆绑包中,如使用 证书 (用于断开连接的环境)中所述,请参阅使用证书。不需要额外的配置来将这些证书与分布式工作负载一起使用。集中配置的自签名证书会在以下挂载点的工作负载 pod 中自动可用:
集群范围的 CA 捆绑包:
/etc/pki/tls/certs/odh-trusted-ca-bundle.crt /etc/ssl/certs/odh-trusted-ca-bundle.crt
/etc/pki/tls/certs/odh-trusted-ca-bundle.crt /etc/ssl/certs/odh-trusted-ca-bundle.crtCopy to Clipboard Copied! Toggle word wrap Toggle overflow 自定义 CA 捆绑包:
/etc/pki/tls/certs/odh-ca-bundle.crt /etc/ssl/certs/odh-ca-bundle.crt
/etc/pki/tls/certs/odh-ca-bundle.crt /etc/ssl/certs/odh-ca-bundle.crtCopy to Clipboard Copied! Toggle word wrap Toggle overflow
流程
-
在 OpenShift 控制台中,点 Operators
Installed Operators。 - 搜索 Red Hat OpenShift AI Operator,然后点 Operator 名称以打开 Operator 详情页面。
- 点 Data Science Cluster 选项卡。
- 点默认实例名称(如 default-dsc)打开实例详情页面。
- 点 YAML 选项卡显示实例规格。
启用所需的分布式工作负载组件。在
spec.components部分中,为所需组件正确设置managementState字段:-
如果要使用 CodeFlare 框架调优模型,请启用
codeflare、kue和ray组件。 -
如果要使用 Kubeflow Training Operator 调优模型,请启用
kue和trainingoperator组件。 - 所需的组件列表取决于分布式工作负载是否从管道或笔记本运行,如下表所示。
Expand 表 4.1. 分布式工作负载所需的组件 组件 仅限管道 仅限笔记本 Pipelines 和笔记本 codeflare受管受管受管dashboard受管受管受管Datasciencepipelines受管删除受管kueue受管受管受管ray受管受管受管trainingoperator受管受管受管工作台删除受管受管-
如果要使用 CodeFlare 框架调优模型,请启用
-
点击 Save。片刻后,处于
Managed状态的组件已就绪。
验证
检查 codeflare-operator-manager、kubeflow- training-operator、kuberay-operator 和 kueue-controller-manager pod 的状态,如下所示:
- 在 OpenShift 控制台中,从 Project 列表中选择 redhat-ods-applications。
-
点 Workloads
Deployments。 搜索 codeflare-operator-manager、kubeflow- training-operator、kuberay-operator 和 kueue-controller-manager 部署。在每个情形中,按如下所示检查状态:
- 单击部署名称以打开部署详情页面。
- 点 Pods 选项卡。
检查 pod 状态。
当 codeflare-operator-manager- <pod-id> , kubeflow- training-operator- <pod-id > , kuberay-operator- <pod-id> , 和 kue-controller-manager-manager- <pod-id > pod 的状态为 Running 时,pod 就可以使用。
- 要查看每个 pod 的更多信息,请点 pod 名称以打开 pod 详情页面,然后点 Logs 选项卡。
下一步
配置分布式工作负载功能,如 管理分布式工作负载 中所述。