5장. NVIDIA GPUDirect 원격 직접 메모리 액세스(RDMA)
NVIDIA GPUDirect 원격 직접 메모리 액세스(RDMA)를 사용하면 한 컴퓨터의 애플리케이션이 운영 체제를 통해 액세스하지 않고도 다른 컴퓨터의 메모리에 직접 액세스할 수 있습니다. 이를 통해 프로세스에서 커널의 개입을 우회하여 리소스를 확보하고 일반적으로 네트워크 통신을 처리하는 데 필요한 CPU 오버헤드를 크게 줄일 수 있습니다. 이는 GPU 가속 워크로드를 클러스터 전체에 분산하는 데 유용합니다. RDMA는 고대역폭과 저지연 애플리케이션에 매우 적합하므로 빅데이터와 머신 러닝 애플리케이션에 이상적입니다.
현재 NVIDIA GPUDirect RDMA에는 세 가지 구성 방법이 있습니다.
- 공유 장치
- 이 방법을 사용하면 장치가 노출된 OpenShift Container Platform 워커 노드의 여러 포드에서 NVIDIA GPUDirect RDMA 장치를 공유할 수 있습니다.
- 호스트 장치
- 이 방법은 포드에 추가 호스트 네트워크를 생성하여 작업자 노드에서 직접적인 물리적 이더넷 액세스를 제공합니다. 플러그인을 사용하면 네트워크 장치를 호스트 네트워크 네임스페이스에서 포드의 네트워크 네임스페이스로 이동할 수 있습니다.
- SR-IOV 레거시 장치
- SR-IOV(Single Root IO Virtualization) 방식은 이더넷 어댑터와 같은 단일 네트워크 장치를 여러 개의 포드와 공유할 수 있습니다. SR-IOV는 호스트 노드에서 물리적 기능(PF)으로 인식되는 장치를 여러 개의 가상 기능(VF)으로 분할합니다. VF는 다른 네트워크 장치와 같이 사용됩니다.
이러한 각 방법은 NVIDIA GPUDirect RDMA over Converged Ethernet (RoCE) 또는 Infiniband 인프라에서 사용할 수 있으며 총 6개의 구성 방법을 제공합니다.
5.1. NVIDIA GPUDirect RDMA 필수 구성 요소 링크 복사링크가 클립보드에 복사되었습니다!
모든 NVIDIA GPUDirect RDMA 구성 방법에는 특정 운영자 설치가 필요합니다. 다음 단계에 따라 Operator를 설치하세요.
- Node Feature Discovery Operator를 설치합니다.
- SR-IOV Operator를 설치합니다.
- NVIDIA Network Operator를 설치합니다(NVIDIA 문서).
- NVIDIA GPU Operator를 설치합니다(NVIDIA 설명서).