第 2 章 准备分布式培训环境


在运行分布式培训或调优工作前,请按如下所示准备培训环境:

  • 使用适当的工作台镜像创建一个工作台。查看每个工作台镜像中的软件包列表,以查找最适合您分布式培训工作负载的镜像。
  • 确保您有向 OpenShift 集群进行身份验证的凭据。
  • 选择适当的培训图像。从 Red Hat OpenShift AI 提供的基本培训镜像列表中选择,或创建自定义培训镜像。

有关 Red Hat OpenShift AI 提供的工作台镜像和培训镜像的详情,请参考 Red Hat OpenShift AI: 支持的配置 知识库文章。

2.1. 为分布式培训创建工作台

使用适当的资源创建一个工作台来运行分布式培训或调优作业。

重要

硬件配置集功能目前在 Red Hat OpenShift AI 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围

默认情况下,硬件配置集(包括启用了 Kueue-enabled 的配置集)在仪表板导航菜单和用户界面中隐藏,而加速器配置集仍可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings Hardware profiles 选项,以及与硬件配置集关联的用户界面组件,在 OpenShift 中的 OdhDashboardConfig 自定义资源(CR)中将 disableHardwareProfiles 和 disableKue 值设置为 false

有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板

先决条件

  • 您可以使用支持的加速器访问具有足够 worker 节点的 OpenShift 集群,以运行您的培训或调优作业。
  • 集群管理员配置了集群,如下所示:
  • 安装并激活了 Kueue Operator 的红帽构建,如 使用 Kue 配置工作负载管理 中所述。

流程

  1. 登录到 Red Hat OpenShift AI web 控制台。
  2. 如果要将工作台添加到现有项目中,请打开项目并继续下一步。

    如果要将工作台添加到新项目中,请按如下所示创建项目:

    1. 在左侧导航窗格中,单击 Data Science projects,然后单击 Create project
    2. 输入项目名称,以及可选的描述,然后点 Create。项目详情页面将打开,默认选择 Overview 选项卡。
  3. 创建一个工作台,如下所示:

    1. 在项目详情页面上,单击 Workbench 选项卡,再单击 Create workbench
    2. 输入工作台名称,以及可选的描述。
    3. Workbench image 部分中,从 Image 选择 列表中选择适合您的培训或调优作业的镜像。如果存在项目范围内的镜像,Image 选择 列表包含子标题,以区分全局镜像和项目范围内的镜像。

      例如,要使用 Kubeflow 培训 运行 Fine-tuning model 中描述的示例微调作业,请选择 PyTorch

    4. Deployment size 部分中,从 Hardware profile 列表中为您的工作台选择一个合适的硬件配置集。

      如果存在项目范围内的硬件配置文件,则 Hardware profile 列表包含子标题,以区分全局硬件配置文件和项目范围内的硬件配置文件。

      硬件配置集指定分配给容器的 CPU 数量和内存量,为两者设置保证最小值(request)和最大值(limit)。

    5. 如果要更改默认值,点 Customize resource requests and limit,并输入新的最小值(request)和最大值(limit)值。
    6. Cluster storage 部分,点 Attach existing storageCreate storage 指定存储详情,以便您可以在工作台间共享数据以及培训或调优运行。

      例如,要使用 Kubeflow training 运行 Fine-tuning model 中描述的微调作业示例,请指定 ReadWriteMany (RWX)功能的存储类。

    7. 检查存储配置并点 Create workbench

验证

Workbenches 选项卡上,状态从 Starting 变为 Running

Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部