第 7 章为 LAB-tuning 创建硬件配置文件

在 OpenShift AI 中配置 GPU 硬件配置文件，用户可以在启动 LAB-tuning 运行时选择。

在 OpenShift AI 中运行 LAB-tuning 工作负载需要 GPU 硬件配置集。LAB-tuning 使用分布式培训，这些培训必须调度到具有 GPU 资源的节点。GPU 硬件配置集允许用户在启动管道时以特定 GPU 的 worker 节点为目标，确保培训工作负载在兼容硬件上运行。

先决条件

流程

按照创建硬件配置集来创建 LAB-tuning 硬件配置集中描述的步骤，将以下配置适应您的特定集群设置：

Expand

设置	value
cpu: 默认	4 个内核
cpu: 最小允许	2 个内核
cpu: 最大允许	4 个内核
内存：允许的最大值	250 GiB 或更多
资源标签	`nvidia.com/gpu`
资源标识符	`nvidia.com/gpu`
资源类型	`加速器`
节点选择器键（可选）	`node.kubernetes.io/instance-type`
节点选择器值	`a2-ultragpu-2g`
容限（可选）	`Exists`
容限键	`nvidia.com/gpu`
容限效果	`NoSchedule`

第 7 章 为 LAB-tuning 创建硬件配置文件