第 4 章 JobSet Operator
4.1. JobSet Operator 概述 复制链接链接已复制到粘贴板!
使用 OpenShift Container Platform 上的 JobSet Operator 轻松管理和运行大规模,协调工作负载,如高性能计算(HPC)和 AI 培训。JobSet Operator 可以帮助您通过多模板作业支持和稳定的网络等功能快速恢复和高效的资源使用。
JobSet Operator 只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅以下链接:
4.1.1. 关于 JobSet Operator 复制链接链接已复制到粘贴板!
使用 OpenShift Container Platform 上的 JobSet Operator 来管理大型、分布式和协调的计算工作负载,如高性能计算(HPC)或人工智能(AI)培训,并获得自动稳定性、协调和故障恢复。
JobSet Operator 基于 JobSet 开源项目。
JobSet Operator 旨在将一组作业作为一个协调的单元进行管理。这对 HPC 和培训大规模 AI 模型等字段特别有用,您需要机器团队在数小时或天内运行。
您可以使用 JobSet Operator 解决标准 OpenShift Container Platform 作业太大或过于复杂的问题。JobSet Operator 提供协调、稳定性和恢复。
JobSet Operator 会自动设置稳定的无头服务来获取 IP 地址,以便 worker 可以查找并相互通信,即使在失败并重启后也是如此。它还提供自动故障恢复。如果大型培训工作的一个小部分失败,可以将 Operator 配置为从保存的检查点重启整个 worker 组。这会节省时间和计算成本。
JobSet Operator 提供了启动控制,允许您定义特定的启动序列来确保满足依赖项。例如,确保在任何 worker 尝试连接前运行领导机。
JobSet Operator 使得在 OpenShift Container Platform 上管理大型、分布式和协调的计算任务变得更加简单,将多个独立组件变为一个弹性且可管理的系统。