第 2 章 准备分布式培训环境
在运行分布式培训或调优工作前,请按如下所示准备培训环境:
- 使用适当的工作台镜像创建一个工作台。查看每个工作台镜像中的软件包列表,以查找最适合您分布式培训工作负载的镜像。
- 确保您有向 OpenShift 集群进行身份验证的凭据。
- 选择适当的培训图像。从 Red Hat OpenShift AI 提供的基本培训镜像列表中选择,或创建自定义培训镜像。
有关 Red Hat OpenShift AI 提供的工作台镜像和培训镜像的详情,请参考 Red Hat OpenShift AI: 支持的配置 知识库文章。
2.1. 为分布式培训创建工作台 复制链接链接已复制到粘贴板!
使用适当的资源创建一个工作台来运行分布式培训或调优作业。
硬件配置集功能目前在 Red Hat OpenShift AI 中作为技术预览功能提供。技术预览功能不受红帽产品服务等级协议(SLA)支持,且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能,并有机会在开发阶段提供反馈意见。
有关红帽技术预览功能支持范围的更多信息,请参阅技术预览功能支持范围。
默认情况下,硬件配置集(包括启用了 Kueue-enabled 的配置集)在仪表板导航菜单和用户界面中隐藏,而加速器配置集仍可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings OdhDashboardConfig 自定义资源(CR)中将 值设置为 disableHardwareProfiles 和 disableKuefalse。
有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。
先决条件
- 您可以使用支持的加速器访问具有足够 worker 节点的 OpenShift 集群,以运行您的培训或调优作业。
- 集群管理员配置了集群,如下所示:
安装并激活了 Kueue Operator 的红帽构建,如 使用 Kue 配置工作负载管理 中所述。
- 安装了带有所需分布式培训组件的 Red Hat OpenShift AI,如 安装分布式工作负载组件 中所述。
- 配置分布式培训资源,如 管理分布式工作负载 中所述。
- 配置支持的加速器,如使用 加速器 所述。
流程
- 登录到 Red Hat OpenShift AI web 控制台。
如果要将工作台添加到现有项目中,请打开项目并继续下一步。
如果要将工作台添加到新项目中,请按如下所示创建项目:
- 在左侧导航窗格中,单击 Data Science projects,然后单击 Create project。
- 输入项目名称,以及可选的描述,然后点 Create。项目详情页面将打开,默认选择 Overview 选项卡。
创建一个工作台,如下所示:
- 在项目详情页面上,单击 Workbench 选项卡,再单击 Create workbench。
- 输入工作台名称,以及可选的描述。
在 Workbench image 部分中,从 Image 选择 列表中选择适合您的培训或调优作业的镜像。如果存在项目范围内的镜像,Image 选择 列表包含子标题,以区分全局镜像和项目范围内的镜像。
例如,要使用 Kubeflow 培训 运行 Fine-tuning model 中描述的示例微调作业,请选择 PyTorch。
在 Deployment size 部分中,从 Hardware profile 列表中为您的工作台选择一个合适的硬件配置集。
如果存在项目范围内的硬件配置文件,则 Hardware profile 列表包含子标题,以区分全局硬件配置文件和项目范围内的硬件配置文件。
硬件配置集指定分配给容器的 CPU 数量和内存量,为两者设置保证最小值(request)和最大值(limit)。
- 如果要更改默认值,点 Customize resource requests and limit,并输入新的最小值(request)和最大值(limit)值。
在 Cluster storage 部分,点 Attach existing storage 或 Create storage 指定存储详情,以便您可以在工作台间共享数据以及培训或调优运行。
例如,要使用 Kubeflow training 运行 Fine-tuning model 中描述的微调作业示例,请指定 ReadWriteMany (RWX)功能的存储类。
- 检查存储配置并点 Create workbench。
验证
在 Workbenches 选项卡上,状态从 Starting 变为 Running。