第 3 章 安装分布式工作负载组件
要在 OpenShift AI 中使用分布式工作负载功能,您必须安装几个组件。
先决条件
-
已使用
cluster-admin
角色登录到 OpenShift,您可以访问数据科学项目。 - 已安装 Red Hat OpenShift AI。
- 您有足够的资源。除了 安装和部署 OpenShift AI 中描述的最低 OpenShift AI 资源外,还需要 1.6 vCPU 和 2 GiB 内存来部署分布式工作负载基础架构。
- 您已删除了 CodeFlare Operator 的任何以前安装实例,如 知识库解决方案 如何从数据科学集群中的单独安装的 CodeFlare Operator 迁移。
如果要使用图形处理单元(GPU),在 OpenShift AI 中启用了 GPU 支持。请参阅启用 NVIDIA GPU。
注意在 OpenShift AI 中,对于分布式工作负载,红帽只支持 NVIDIA GPU 加速器。红帽支持在同一集群中使用加速器。红帽不支持在加速器之间远程直接内存访问(RDMA),或使用网络上的加速器,例如使用 NVIDIA GPUDirect 或 NVLink 等技术。
如果要使用自签名证书,请将它们添加到中央证书颁发机构(CA)捆绑包中,如使用 证书 中所述。不需要额外的配置来将这些证书与分布式工作负载一起使用。集中配置的自签名证书会在以下挂载点的工作负载 pod 中自动可用:
集群范围的 CA 捆绑包:
/etc/pki/tls/certs/odh-trusted-ca-bundle.crt /etc/ssl/certs/odh-trusted-ca-bundle.crt
自定义 CA 捆绑包:
/etc/pki/tls/certs/odh-ca-bundle.crt /etc/ssl/certs/odh-ca-bundle.crt
流程
-
在 OpenShift 控制台中,点 Operators
Installed Operators。 - 搜索 Red Hat OpenShift AI Operator,然后点 Operator 名称以打开 Operator 详情页面。
- 点 Data Science Cluster 选项卡。
- 点默认实例名称(如 default-dsc)打开实例详情页面。
- 点 YAML 选项卡显示实例规格。
启用所需的分布式工作负载组件。在
spec.components
部分中,为所需组件正确设置managementState
字段:-
如果要使用 CodeFlare 框架调优模型,请启用
codeflare
、kue
和ray
组件。 -
如果要使用 Kubeflow Training Operator 调优模型,请启用
kue
和trainingoperator
组件。 - 所需的组件列表取决于分布式工作负载是否从管道或笔记本运行,如下表所示。
表 3.1. 分布式工作负载所需的组件 组件 仅限管道 仅限笔记本 Pipelines 和笔记本 codeflare
受管
受管
受管
dashboard
受管
受管
受管
datasciencepipelines
受管
删除
受管
kueue
受管
受管
受管
ray
受管
受管
受管
trainingoperator
受管
受管
受管
workbenches
删除
受管
受管
-
如果要使用 CodeFlare 框架调优模型,请启用
-
点击 Save。片刻后,处于
Managed
状态的组件已就绪。
验证
检查 codeflare-operator-manager、kuberay-operator 和 kueue-controller-manager pod 的状态,如下所示:
- 在 OpenShift 控制台中,从 Project 列表中选择 redhat-ods-applications。
-
点 Workloads
Deployments。 搜索 codeflare-operator-manager,kuberay-operator, 和 kueue-controller-manager 部署。在每个情形中,按如下所示检查状态:
- 单击部署名称以打开部署详情页面。
- 点 Pods 选项卡。
检查 pod 状态。
当 codeflare-operator-manager- <pod-id& gt;、kuberay-operator- <pod-id>、和 kue-controller-manager-<pod-id > pod 的状态为 Running 时,pod 就可以使用。
- 要查看每个 pod 的更多信息,请点 pod 名称以打开 pod 详情页面,然后点 Logs 选项卡。
下一步
配置分布式工作负载功能,如 管理分布式工作负载 中所述。