主页
产品
OpenShift Container Platform
4.19
硬件加速器
第 5 章 NVIDIA GPUDirect Remote Direct Memory Access (RDMA)

第 5 章 NVIDIA GPUDirect Remote Direct Memory Access (RDMA)

NVIDIA GPUDirect Remote Direct Memory Access (RDMA) 允许一个计算机中的应用程序直接访问另一个计算机的内存，而无需通过操作系统访问。这提供了一个在进程中绕过内核干预的功能，释放资源并大大减少了处理网络通信所需的 CPU 开销。这可用于在集群中分发 GPU 加速的工作负载。因为 RDMA 非常适合高带宽和低延迟应用程序，因此这使其成为大数据和机器学习应用程序的理想选择。

目前，NVIDIA GPUDirect RDMA 有三种配置方法：

共享设备: 这个方法允许 NVIDIA GPUDirect RDMA 设备在公开设备的 OpenShift Container Platform worker 节点上的多个 pod 共享。
主机设备: 此方法通过在 pod 上创建额外的主机网络，在 worker 节点上提供直接物理以太网访问。插件允许将网络设备从主机网络命名空间移到 pod 上的网络命名空间。
SR-IOV 传统设备: Single Root IO 虚拟化(SR-IOV)方法可以在多个 pod 间共享一个单个网络设备，如以太网适配器。SR-IOV 会将设备（在主机节点上被识别为物理功能(PF)）分段为多个虚拟功能(VF)。VF 和其它网络设备一样使用。

每种方法都可以在 NVIDIA GPUDirect RDMA over Converged Ethernet (RoCE)或 Infiniband 基础架构中使用，提供总计 6 种配置方法。

5.1. NVIDIA GPUDirect RDMA 的先决条件
复制链接

NVIDIA GPUDirect RDMA 配置的所有方法都需要安装特定的 Operator。使用以下步骤安装 Operator：

安装 Node Feature Discovery Operator。
安装 SR-IOV Operator。
安装 NVIDIA Network Operator (NVIDIA 文档)。
安装 NVIDIA GPU Operator (NVIDIA 文档)。

返回顶部

第 5 章 NVIDIA GPUDirect Remote Direct Memory Access (RDMA)

5.1. NVIDIA GPUDirect RDMA 的先决条件
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 5 章 NVIDIA GPUDirect Remote Direct Memory Access (RDMA)

5.1. NVIDIA GPUDirect RDMA 的先决条件复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

5.1. NVIDIA GPUDirect RDMA 的先决条件
复制链接