第 3 章 安装分布式工作负载组件
要在 OpenShift AI 中使用分布式工作负载功能,您必须安装几个组件。
先决条件
-
已使用
cluster-admin角色登录到 OpenShift,您可以访问数据科学项目。 - 已安装 Red Hat OpenShift AI。
- 您已在 OpenShift 集群上安装 Red Hat build of Kueue Operator,如 Red Hat build of Kueue 文档所述。
- 您有足够的资源。除了 安装和部署 OpenShift AI 中描述的最低 OpenShift AI 资源外,还需要 1.6 vCPU 和 2 GiB 内存来部署分布式工作负载基础架构。
- 您已删除了 CodeFlare Operator 的任何以前安装实例,如 知识库解决方案 如何从数据科学集群中的单独安装的 CodeFlare Operator 迁移。
如果要使用图形处理单元(GPU),在 OpenShift AI 中启用了 GPU 支持。如果使用 NVIDIA GPU,请参阅启用 NVIDIA GPU。如果使用 AMD GPU,请参阅 AMD GPU 集成。
注意在 OpenShift AI 中,红帽支持在同一集群中使用加速器。
红帽只支持 NVIDIA GPU 的远程直接内存访问(RDMA),使它们可以通过在以太网或 InfiniBand 网络中使用 NVIDIA GPUDirect RDMA 来直接相互通信。
如果要使用自签名证书,请将它们添加到中央证书颁发机构(CA)捆绑包中,如使用 证书 中所述。不需要额外的配置来将这些证书与分布式工作负载一起使用。集中配置的自签名证书会在以下挂载点的工作负载 pod 中自动可用:
集群范围的 CA 捆绑包:
/etc/pki/tls/certs/odh-trusted-ca-bundle.crt /etc/ssl/certs/odh-trusted-ca-bundle.crt
/etc/pki/tls/certs/odh-trusted-ca-bundle.crt /etc/ssl/certs/odh-trusted-ca-bundle.crtCopy to Clipboard Copied! Toggle word wrap Toggle overflow 自定义 CA 捆绑包:
/etc/pki/tls/certs/odh-ca-bundle.crt /etc/ssl/certs/odh-ca-bundle.crt
/etc/pki/tls/certs/odh-ca-bundle.crt /etc/ssl/certs/odh-ca-bundle.crtCopy to Clipboard Copied! Toggle word wrap Toggle overflow
流程
-
在 OpenShift 控制台中,点 Operators
Installed Operators。 - 搜索 Red Hat OpenShift AI Operator,然后点 Operator 名称以打开 Operator 详情页面。
- 点 Data Science Cluster 选项卡。
- 点默认实例名称(如 default-dsc)打开实例详情页面。
- 点 YAML 选项卡显示实例规格。
启用所需的分布式工作负载组件。在
spec.components部分中,为所需组件正确设置managementState字段:-
将
kueue设置为Unmanaged以允许红帽构建 Kueue Operator 管理 Kue。 -
如果要使用 CodeFlare 框架调整模型,请将
codeflare和ray设置为Managed。 -
如果要使用 Kubeflow Training Operator 调优模型,请将
trainingoperator设置为Managed。 - 所需的组件列表取决于分布式工作负载是否从管道或工作台运行,如下表所示。
Expand 表 3.1. 分布式工作负载所需的组件 组件 仅限管道 仅限工作台 Pipelines 和工作台 codeflare受管受管受管dashboard受管受管受管datasciencepipelines受管删除受管kueueUnmanagedUnmanagedUnmanagedray受管受管受管trainingoperator受管受管受管workbenches删除受管受管-
将
-
点击 Save。片刻后,处于
Managed状态的组件已就绪。
验证
检查 codeflare-operator-manager,kubeflow- training-operator,kuberay-operator,kue-controller-manager, 和 openshift-kue-operator pod 的状态,如下所示:
-
在 OpenShift 控制台中,点击 Workloads
Deployments。 在 Search by name 字段中输入以下搜索字符串:
- 在 redhat-ods-applications 项目中,搜索 codeflare-operator-manager、kubeflow-training-operator 和 kuberay-operator。
- 在 openshift-kueue-operator 项目中,搜索 kueue-controller-manager 和 openshift-kue-operator。
在每个情形中,按如下所示检查状态:
- 单击部署名称以打开部署详情页面。
- 点 Pods 选项卡。
检查 pod 状态。
当容器集的状态为 Running 时,容器集可以使用。
- 要查看每个 pod 的更多信息,请点 pod 名称以打开 pod 详情页面,然后点 Logs 选项卡。
下一步
配置分布式工作负载功能,如 管理分布式工作负载 中所述。