第 1 章分布式工作负载概述

您可以使用分布式工作负载功能来排队、扩展和管理在 OpenShift 集群中多个节点运行数据科学工作负载所需的资源。通常，数据科学工作负载包括几种人工智能(AI)工作负载，包括机器学习(ML)和 Python 工作负载。

分布式工作负载提供以下优点：

1.1. 分布式工作负载基础架构
复制链接

分布式工作负载基础架构包括以下组件：

CodeFlare Operator: 保护部署的 Ray 集群，并授予对其 URL 的访问
CodeFlare SDK: 为任何基于 Python 的环境定义和控制远程分布式计算作业和基础架构
注意
CodeFlare SDK 未作为 OpenShift AI 的一部分安装，但它包含在 OpenShift AI 提供的工作台镜像中。
Kubeflow Training Operator: 为使用 PyTorch 等不同 ML 框架创建的 ML 模型提供微调和可扩展的分布式培训
Kubeflow Training Operator Python Software Development Kit (training Operator SDK): 简化分布式培训的创建和调优作业

注意

Training Operator SDK 不作为 OpenShift AI 的一部分安装，但它包含在 OpenShift AI 提供的工作台镜像中。

有关安装这些组件的详情，请参考安装分布式工作负载组件。