第 1 章 关于硬件加速器
专用硬件加速器在新兴性智能和机器学习(AI/ML)行业中发挥了关键作用。具体来说,硬件加速器对于培训以及支持这种新技术的大型语言和其他基础模型至关重要。数据科学家、数据工程师、ML 工程师和开发人员可以利用专门的硬件加速数据密集型转换和模型开发及服务。其中大多数生态系统都是开源的,有大量贡献合作伙伴和开源基础。
Red Hat OpenShift Container Platform 支持卡和外围硬件,添加组成硬件加速器的处理单元:
- 图形处理单元(GPU)
- Neural processing units (NPUs)
- 特定于应用程序的集成电路(ASIC)
- 数据处理单元(DPU)
专用硬件加速器为 AI/ML 开发提供了丰富的优点:
- 一个用于所有的平台
- 面向开发人员、数据工程师、数据科学家和 DevOps 的协作环境
- 使用 Operator 扩展功能
- Operator 允许将 AI/ML 功能引入到 OpenShift Container Platform
- 混合云支持
- 对模型开发、交付和部署的内部支持
- 支持 AI/ML 工作负载
- 模型测试、迭代、集成、提升,并作为服务提供给生产环境中
红帽提供了一个优化的平台,可在 Linux (kernel 和 userspace)和 Kubernetes 层的 Red Hat Enterprise Linux (RHEL)和 OpenShift Container Platform 平台中启用这些专用硬件加速器。为此,红帽在单个企业级 AI 应用平台中结合了 Red Hat OpenShift AI 和 Red Hat OpenShift Container Platform 的成熟功能。
硬件 Operator 使用 Kubernetes 集群的操作框架来启用所需的加速器资源。您还可以手动部署提供的设备插件或守护进程集。此插件在集群中注册 GPU。
某些专用硬件加速器设计为在必须维护安全环境以进行开发和测试的断开连接的环境中工作。
1.1. 硬件加速器
Red Hat OpenShift Container Platform 启用以下硬件加速器:
- NVIDIA GPU
- AMD Instinct® GPU
- Intel® Gaudi®