第 1 章 加速器概述
如果使用大型数据集,您可以使用加速器来优化 OpenShift AI 中数据科学模型的性能。通过加速器,您可以扩展工作、缩短延迟并提高生产效率。您可以在 OpenShift AI 中使用加速器来帮助您的数据科学家完成以下任务:
- 自然语言处理(NLP)
- inference
- 培训深层网络
- 数据清理和数据处理
您可以将以下加速器用于 OpenShift AI:
NVIDIA 图形处理单元(GPU)
- 要在模型中使用计算密集型工作负载,您可以在 OpenShift AI 中启用 NVIDIA 图形处理单元(GPU)。
- 要在 OpenShift 上启用 NVIDIA GPU,您必须安装 NVIDIA GPU Operator。
AMD 图形处理单元(GPU)
- 使用 AMD GPU Operator 为工作负载(如 AI/ML 培训和认证)启用 AMD GPU。
要在 OpenShift 中启用 AMD GPU,您必须执行以下任务:
- 安装 AMD GPU Operator。
- 按照 AMD GPU Operator 文档中的 的完整部署和驱动程序配置进行操作。
- 安装后,AMD GPU Operator 允许您使用 ROCm workbench 镜像来简化 AMD GPU 上的 AI/ML 工作流。
Intel Gaudi AI Accelerators
- Intel 提供用于深入学习工作负载的硬件加速器。
- 在 OpenShift AI 中启用 Intel Gaudi AI Accelerators 之前,您必须安装所需的依赖项。另外,您安装的 Intel Gaudi AI Operator 的版本必须与部署中对应的 workbench 镜像版本匹配。
- 默认情况下,OpenShift AI 不包含 Intel Gaudi Accelerators 的工作台镜像。反之,您必须创建一个自定义工作台来启用 Intel Gaudi AI 支持。
- 您可以在内部或 AWS 实例上的 AWS DL1 计算节点启用 Intel Gaudi AI 加速器。
在 OpenShift AI 中使用加速器前,您必须在 OpenShift AI 中启用 GPU 支持。这包括安装 Node Feature Discovery operator 和 NVIDIA GPU Operator。如需更多信息,请参阅安装 Node Feature Discovery operator 和 启用 NVIDIA GPU。另外,您的 OpenShift 实例必须包含关联的硬件配置集或加速器配置集。对于部署的新加速器,您必须在上下文中为加速器配置硬件配置集或加速器配置集。您可以从 OpenShift AI 仪表板上的 Settings
Hardware profiles 页面创建硬件配置集。如果您的部署包含已经配置关联的配置集的现有加速器,则在升级到最新版本的 OpenShift AI 后会自动创建配置集。 重要默认情况下,硬件配置集在仪表板导航菜单和用户界面中隐藏,而加速器配置集保持可见。另外,与已弃用的加速器配置集功能关联的用户界面组件仍然会显示。要在仪表板导航菜单中显示 Settings
Hardware profiles 选项,以及与硬件配置集关联的用户界面组件,请在 OpenShift 中的 OdhDashboardConfig
自定义资源(CR)中将disableHardwareProfiles
值设置为false
。有关设置仪表板配置选项的更多信息,请参阅 自定义仪表板。