第 5 章 NVIDIA GPUDirect Remote Direct Memory Access (RDMA)


NVIDIA GPUDirect Remote Direct Memory Access (RDMA) 允许一个计算机中的应用程序直接访问另一个计算机的内存,而无需通过操作系统访问。这提供了一个在进程中绕过内核干预的功能,释放资源并大大减少了处理网络通信所需的 CPU 开销。这可用于在集群中分发 GPU 加速的工作负载。因为 RDMA 非常适合高带宽和低延迟应用程序,因此这使其成为大数据和机器学习应用程序的理想选择。

目前,NVIDIA GPUDirect RDMA 有三种配置方法:

共享设备
这个方法允许 NVIDIA GPUDirect RDMA 设备在公开设备的 OpenShift Container Platform worker 节点上的多个 pod 共享。
主机设备
此方法通过在 pod 上创建额外的主机网络,在 worker 节点上提供直接物理以太网访问。插件允许将网络设备从主机网络命名空间移到 pod 上的网络命名空间。
SR-IOV 传统设备
Single Root IO 虚拟化(SR-IOV)方法可以在多个 pod 间共享一个单个网络设备,如以太网适配器。SR-IOV 会将设备(在主机节点上被识别为物理功能(PF))分段为多个虚拟功能(VF)。VF 和其它网络设备一样使用。

每种方法都可以在 NVIDIA GPUDirect RDMA over Converged Ethernet (RoCE)或 Infiniband 基础架构中使用,提供总计 6 种配置方法。

5.1. NVIDIA GPUDirect RDMA 的先决条件

NVIDIA GPUDirect RDMA 配置的所有方法都需要安装特定的 Operator。使用以下步骤安装 Operator:

返回顶部
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2025 Red Hat