第 7 章 为 LAB-tuning 创建硬件配置文件


在 OpenShift AI 中配置 GPU 硬件配置文件,用户可以在启动 LAB-tuning 运行时选择。

在 OpenShift AI 中运行 LAB-tuning 工作负载需要 GPU 硬件配置集。LAB-tuning 使用分布式培训,这些培训必须调度到具有 GPU 资源的节点。GPU 硬件配置集允许用户在启动管道时以特定 GPU 的 worker 节点为目标,确保培训工作负载在兼容硬件上运行。

先决条件

  • 以具有管理员特权的用户身份登录到 OpenShift AI。
  • 已安装相关的硬件,并确认它已在您的系统中被检测到。

流程

  1. 按照 创建硬件配置集 来创建 LAB-tuning 硬件配置集 中描述的步骤,将以下配置适应您的特定集群设置:

    Expand
    设置value

    cpu: 默认

    4 个内核

    cpu: 最小允许

    2 个内核

    cpu: 最大允许

    4 个内核

    内存:允许的最大值

    250 GiB 或更多

    资源标签

    nvidia.com/gpu

    资源标识符

    nvidia.com/gpu

    资源类型

    加速器

    节点选择器键(可选)

    node.kubernetes.io/instance-type

    节点选择器值

    a2-ultragpu-2g

    容限(可选)

    Exists

    容限键

    nvidia.com/gpu

    容限效果

    NoSchedule

  2. 确保新的硬件配置文件可用于 Enable 列中的复选标记。
返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat