第 2 章 管理自定义培训镜像
要运行分布式培训工作,您可以使用 OpenShift AI 提供的一个基本培训镜像,也可以创建自己的自定义培训镜像。您可以选择将自定义培训镜像推送到集成的 OpenShift 镜像 registry 中,以使您的镜像可供其他用户使用。
2.1. 关于基本培训镜像 复制链接链接已复制到粘贴板!
用于分布式工作负载的基本培训镜像通过运行分布式培训工作所需的工具和库优化。您可以使用提供的基础镜像,也可以创建特定于您的需要的自定义镜像。
有关红帽支持培训镜像和软件包的详情,请参考 Red Hat OpenShift AI: 支持的配置。
下表列出了默认情况下随 Red Hat OpenShift AI 安装的培训镜像。
| 镜像类型 | 描述 |
|---|---|
| Ray CUDA | 如果您使用计算密集型模型,而您想要使用 NVIDIA GPU 支持加速培训作业,您可以使用 Ray Compute Unified Device Architecture (CUDA)基础镜像来获得对 NVIDIA CUDA 工具包的访问。使用这个工具包,您可以使用为 NVIDIA GPU 优化的库和工具来加快您的工作。 |
| Ray ROCm | 如果您使用计算密集型模型,而您想要使用 AMD GPU 支持加速培训作业,您可以使用 Ray ROCm 基础镜像来获得对 AMD ROCm 软件堆栈的访问。使用这个软件堆栈,您可以使用为 AMD GPU 优化的库和工具来加快您的工作。 |
| KFTO CUDA | 如果您使用计算密集型模型,而您想要使用 NVIDIA GPU 支持加快培训作业,您可以使用 Kubeflow training Operator (KFTO) CUDA 基础镜像来访问 NVIDIA CUDA 工具包。使用这个工具包,您可以使用为 NVIDIA GPU 优化的库和工具来加快您的工作。 |
| KFTO ROCm | 如果您使用计算密集型模型,而您想要使用 AMD GPU 支持加速培训作业,您可以使用 KFTO ROCm 基础镜像来获得对 AMD ROCm 软件堆栈的访问。使用这个软件堆栈,您可以使用为 AMD GPU 优化的库和工具来加快您的工作。 |
如果这些镜像中提供的预安装软件包不足以满足您的用例,则您可以选择:
- 在启动默认镜像后安装其他库。如果您要在运行培训工作时在临时命令中添加库,则此选项很好。但是,管理已安装库的依赖项可能具有挑战性。
- 创建包含额外库或软件包的自定义镜像。如需更多信息,请参阅 创建自定义培训镜像。