第 1 章 分布式工作负载概述
您可以使用分布式工作负载功能来排队、扩展和管理在 OpenShift 集群中多个节点运行数据科学工作负载所需的资源。通常,数据科学工作负载包括几种人工智能(AI)工作负载,包括机器学习(ML)和 Python 工作负载。
分布式工作负载提供以下优点:
- 由于减少处理时间,您可以更快速、更频繁地进行实验。
- 您可以使用较大的数据集,这可能会导致更准确的模型。
- 您可以使用无法在单个节点上接受的复杂模型。
- 您可以随时提交分布式工作负载,系统然后在所需资源可用时调度分布式工作负载。
1.1. 分布式工作负载基础架构 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
分布式工作负载基础架构包括以下组件:
- CodeFlare Operator
- 保护部署的 Ray 集群,并授予对其 URL 的访问
- CodeFlare SDK
为任何基于 Python 的环境定义和控制远程分布式计算作业和基础架构
注意CodeFlare SDK 未作为 OpenShift AI 的一部分安装,但它包含在 OpenShift AI 提供的工作台镜像中。
- Kubeflow Training Operator
- 为使用 PyTorch 等不同 ML 框架创建的 ML 模型提供微调和可扩展的分布式培训
- Kubeflow Training Operator Python Software Development Kit (training Operator SDK)
- 简化分布式培训的创建和调优作业
注意
Training Operator SDK 不作为 OpenShift AI 的一部分安装,但它包含在 OpenShift AI 提供的工作台镜像中。
- KubeRay
- 在 OpenShift 上管理远程 Ray 集群,以运行分布式计算工作负载
- Red Hat build of Kueue Operator
- 管理配额以及分布式工作负载如何使用配额,以及管理分布式工作负载的队列与配额相关
有关安装这些组件的详情,请参考 安装分布式工作负载组件。