第 6 章 使用分布式工作负载
要更快地培训复杂的机器学习模型或处理数据,数据科学家可以使用分布式工作负载功能并行在多个 OpenShift worker 节点上运行作业。这种方法可显著减少任务完成时间,并允许使用更大的数据集和更复杂的模型。
重要
分布式工作负载功能目前在 Red Hat OpenShift AI 2.8 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
6.1. 分布式工作负载概述 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
您可以使用分布式工作负载功能来排队、扩展和管理在 OpenShift 集群中多个节点运行数据科学工作负载所需的资源。通常,数据科学工作负载包括几种人工智能(AI)工作负载,包括机器学习(ML)和 Python 工作负载。
分布式工作负载提供以下优点:
- 由于减少处理时间,您可以更快速、更频繁地进行实验。
- 您可以使用较大的数据集,这可能会导致更准确的模型。
- 您可以使用无法在单个节点上接受的复杂模型。
分布式工作负载基础架构包括以下组件:
- CodeFlare Operator
- 管理批处理作业的排队
- CodeFlare SDK
- 为任何基于 Python 的环境定义和控制远程分布式计算作业和基础架构
- KubeRay
- 在 OpenShift 上管理远程 Ray 集群,以运行分布式计算工作负载
您可以从数据科学项目管道或从笔记本运行分布式数据科学工作负载。