第 6 章 使用分布式工作负载


要更快地培训复杂的机器学习模型或处理数据,数据科学家可以使用分布式工作负载功能并行在多个 OpenShift worker 节点上运行作业。这种方法可显著减少任务完成时间,并允许使用更大的数据集和更复杂的模型。

重要

分布式工作负载功能目前在 Red Hat OpenShift AI 2.8 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

6.1. 分布式工作负载概述

您可以使用分布式工作负载功能来排队、扩展和管理在 OpenShift 集群中多个节点运行数据科学工作负载所需的资源。通常,数据科学工作负载包括几种人工智能(AI)工作负载,包括机器学习(ML)和 Python 工作负载。

分布式工作负载提供以下优点:

  • 由于减少处理时间,您可以更快速、更频繁地进行实验。
  • 您可以使用较大的数据集,这可能会导致更准确的模型。
  • 您可以使用无法在单个节点上接受的复杂模型。

分布式工作负载基础架构包括以下组件:

CodeFlare Operator
管理批处理作业的排队
CodeFlare SDK
为任何基于 Python 的环境定义和控制远程分布式计算作业和基础架构
KubeRay
在 OpenShift 上管理远程 Ray 集群,以运行分布式计算工作负载

您可以从数据科学项目管道或从笔记本运行分布式数据科学工作负载。

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat