第 1 章 分布式工作负载概述


您可以使用分布式工作负载功能来排队、扩展和管理在 OpenShift 集群中多个节点运行数据科学工作负载所需的资源。通常,数据科学工作负载包括几种人工智能(AI)工作负载,包括机器学习(ML)和 Python 工作负载。

分布式工作负载提供以下优点:

  • 由于减少处理时间,您可以更快速、更频繁地进行实验。
  • 您可以使用较大的数据集,这可能会导致更准确的模型。
  • 您可以使用无法在单个节点上接受的复杂模型。
  • 您可以随时提交分布式工作负载,系统然后在所需资源可用时调度分布式工作负载。

1.1. 分布式工作负载基础架构

分布式工作负载基础架构包括以下组件:

CodeFlare Operator
保护部署的 Ray 集群,并授予对其 URL 的访问
CodeFlare SDK

为任何基于 Python 的环境定义和控制远程分布式计算作业和基础架构

注意

CodeFlare SDK 未作为 OpenShift AI 的一部分安装,但它包含在 OpenShift AI 提供的工作台镜像中。

Kubeflow Training Operator
为使用 PyTorch 等不同 ML 框架创建的 ML 模型提供微调和可扩展的分布式培训
Kubeflow Training Operator Python Software Development Kit (training Operator SDK)
简化分布式培训的创建和调优作业
注意

Training Operator SDK 不作为 OpenShift AI 的一部分安装,但它包含在 OpenShift AI 提供的工作台镜像中。

KubeRay
在 OpenShift 上管理远程 Ray 集群,以运行分布式计算工作负载
Red Hat build of Kueue Operator
管理配额以及分布式工作负载如何使用配额,以及管理分布式工作负载的队列与配额相关

有关安装这些组件的详情,请参考 安装分布式工作负载组件

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部