第 1 章 分布式工作负载概述
您可以使用分布式工作负载功能来队列、扩展和管理在 OpenShift 集群中在多个节点上运行数据科学工作负载所需的资源。通常,数据科学工作负载包括多种人工智能(AI)工作负载,包括机器学习(ML)和 Python 工作负载。
分布式工作负载提供以下优点:
- 由于处理时间减少,您可以更频繁地迭代和试验速度。
- 您可以使用更大的数据集,这可导致更准确的模型。
- 您可以使用无法在单一节点上培训的复杂模型。
- 您可以随时提交分布式工作负载,然后在所需资源可用时调度分布式工作负载。
分布式工作负载基础架构包括以下组件:
- CodeFlare Operator
- 保护部署的 Ray 集群,并授予对其 URL 的访问权限
- CodeFlare SDK
为任何基于 Python 的环境定义和控制远程分布式计算作业和基础架构
注意CodeFlare SDK 未作为 OpenShift AI 的一部分安装,但它包含在 OpenShift AI 提供的一些笔记本镜像中。
- KubeRay
- 管理 OpenShift 上的远程 Ray 集群,用于运行分布式计算工作负载
- 韩语
- 管理配额以及分布式工作负载如何使用它们,并管理与配额相关的分布式工作负载的队列
您可以从数据科学管道、Jupyter 笔记本或从 Microsoft Visual Studio Code 文件运行分布式工作负载。
注意
数据科学管道工作负载不由分布式工作负载功能管理,不包含在分布式工作负载指标中。