第 7 章 为 LAB-tuning 创建硬件配置文件
在 OpenShift AI 中配置 GPU 硬件配置文件,用户可以在启动 LAB-tuning 运行时选择。
在 OpenShift AI 中运行 LAB-tuning 工作负载需要 GPU 硬件配置集。LAB-tuning 使用分布式培训,这些培训必须调度到具有 GPU 资源的节点。GPU 硬件配置集允许用户在启动管道时以特定 GPU 的 worker 节点为目标,确保培训工作负载在兼容硬件上运行。
先决条件
- 以具有管理员特权的用户身份登录到 OpenShift AI。
- 已安装相关的硬件,并确认它已在您的系统中被检测到。
流程
按照 创建硬件配置集 来创建
LAB-tuning硬件配置集 中描述的步骤,将以下配置适应您的特定集群设置:Expand 设置 value cpu: 默认
4 个内核
cpu: 最小允许
2 个内核
cpu: 最大允许
4 个内核
内存:允许的最大值
250 GiB 或更多
资源标签
nvidia.com/gpu资源标识符
nvidia.com/gpu资源类型
加速器节点选择器键(可选)
node.kubernetes.io/instance-type节点选择器值
a2-ultragpu-2g容限(可选)
Exists容限键
nvidia.com/gpu容限效果
NoSchedule- 确保新的硬件配置文件可用于 Enable 列中的复选标记。