第 2 章 管理自定义培训镜像


要运行分布式培训工作,您可以使用 OpenShift AI 提供的一个基本培训镜像,也可以创建自己的自定义培训镜像。您可以选择将自定义培训镜像推送到集成的 OpenShift 镜像 registry 中,以使您的镜像可供其他用户使用。

2.1. 关于基本培训镜像

用于分布式工作负载的基本培训镜像通过运行分布式培训工作所需的工具和库优化。您可以使用提供的基础镜像,也可以创建特定于您的需要的自定义镜像。

有关红帽支持培训镜像和软件包的详情,请参考 Red Hat OpenShift AI: 支持的配置

下表列出了默认情况下随 Red Hat OpenShift AI 安装的培训镜像。

Expand
表 2.1. 默认培训基础镜像
镜像类型描述

Ray CUDA

如果您使用计算密集型模型,而您想要使用 NVIDIA GPU 支持加速培训作业,您可以使用 Ray Compute Unified Device Architecture (CUDA)基础镜像来获得对 NVIDIA CUDA 工具包的访问。使用这个工具包,您可以使用为 NVIDIA GPU 优化的库和工具来加快您的工作。

Ray ROCm

如果您使用计算密集型模型,而您想要使用 AMD GPU 支持加速培训作业,您可以使用 Ray ROCm 基础镜像来获得对 AMD ROCm 软件堆栈的访问。使用这个软件堆栈,您可以使用为 AMD GPU 优化的库和工具来加快您的工作。

KFTO CUDA

如果您使用计算密集型模型,而您想要使用 NVIDIA GPU 支持加快培训作业,您可以使用 Kubeflow training Operator (KFTO) CUDA 基础镜像来访问 NVIDIA CUDA 工具包。使用这个工具包,您可以使用为 NVIDIA GPU 优化的库和工具来加快您的工作。

KFTO ROCm

如果您使用计算密集型模型,而您想要使用 AMD GPU 支持加速培训作业,您可以使用 KFTO ROCm 基础镜像来获得对 AMD ROCm 软件堆栈的访问。使用这个软件堆栈,您可以使用为 AMD GPU 优化的库和工具来加快您的工作。

如果这些镜像中提供的预安装软件包不足以满足您的用例,则您可以选择:

  • 在启动默认镜像后安装其他库。如果您要在运行培训工作时在临时命令中添加库,则此选项很好。但是,管理已安装库的依赖项可能具有挑战性。
  • 创建包含额外库或软件包的自定义镜像。如需更多信息,请参阅 创建自定义培训镜像
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat