第 5 章 NVIDIA GPUDirect Remote Direct Memory Access (RDMA)
NVIDIA GPUDirect Remote Direct Memory Access (RDMA) 允许一个计算机中的应用程序直接访问另一个计算机的内存,而无需通过操作系统访问。这提供了一个在进程中绕过内核干预的功能,释放资源并大大减少了处理网络通信所需的 CPU 开销。这可用于在集群中分发 GPU 加速的工作负载。因为 RDMA 非常适合高带宽和低延迟应用程序,因此这使其成为大数据和机器学习应用程序的理想选择。
目前,NVIDIA GPUDirect RDMA 有三种配置方法:
- 共享设备
- 这个方法允许 NVIDIA GPUDirect RDMA 设备在公开设备的 OpenShift Container Platform worker 节点上的多个 pod 共享。
- 主机设备
- 此方法通过在 pod 上创建额外的主机网络,在 worker 节点上提供直接物理以太网访问。插件允许将网络设备从主机网络命名空间移到 pod 上的网络命名空间。
- SR-IOV 传统设备
- Single Root IO 虚拟化(SR-IOV)方法可以在多个 pod 间共享一个单个网络设备,如以太网适配器。SR-IOV 会将设备(在主机节点上被识别为物理功能(PF))分段为多个虚拟功能(VF)。VF 和其它网络设备一样使用。
每种方法都可以在 NVIDIA GPUDirect RDMA over Converged Ethernet (RoCE)或 Infiniband 基础架构中使用,提供总计 6 种配置方法。
5.1. NVIDIA GPUDirect RDMA 的先决条件 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
NVIDIA GPUDirect RDMA 配置的所有方法都需要安装特定的 Operator。使用以下步骤安装 Operator:
- 安装 Node Feature Discovery Operator。
- 安装 SR-IOV Operator。
- 安装 NVIDIA Network Operator (NVIDIA 文档)。
- 安装 NVIDIA GPU Operator (NVIDIA 文档)。