5장. NVIDIA GPUDirect Memory Access(RDMA)
NVIDIA GPUDirect Memory Access(RDMA)를 사용하면 한 컴퓨터의 애플리케이션이 운영 체제를 통해 액세스하지 않고도 다른 컴퓨터의 메모리에 직접 액세스할 수 있습니다. 이를 통해 프로세스의 커널 개입을 우회하여 리소스를 확보하고 네트워크 통신을 처리하는 데 일반적으로 필요한 CPU 오버헤드를 크게 줄일 수 있습니다. 이는 GPU 가속 워크로드를 클러스터 전체에 분산하는 데 유용합니다. 그리고 RDMA는 높은 대역폭과 낮은 대기 시간 애플리케이션에 매우 적합하기 때문에 큰 데이터 및 머신러닝 애플리케이션에 이상적입니다.
현재 NVIDIA GPUDirect RDMA에 대한 세 가지 구성 방법이 있습니다.
- 공유 장치
- 이 방법을 사용하면 NVIDIA GPUDirect RDMA 장치를 장치가 노출되는 OpenShift Container Platform 작업자 노드의 여러 Pod 간에 공유할 수 있습니다.
- 호스트 장치
- 이 방법은 Pod에서 추가 호스트 네트워크를 생성하여 작업자 노드에서 직접 물리적 이더넷 액세스를 제공합니다. 플러그인을 사용하면 네트워크 장치를 호스트 네트워크 네임스페이스에서 Pod의 네트워크 네임스페이스로 이동할 수 있습니다.
- SR-IOV 레거시 장치
- SR-IOV(Single Root IO Virtualization) 방법은 이더넷 어댑터와 같은 단일 네트워크 장치를 여러 Pod와 공유할 수 있습니다. SR-IOV는 호스트 노드에서 물리적 기능(PF)으로 인식되는 장치를 여러 VF(가상 기능)로 분할합니다. VF는 다른 네트워크 장치와 같이 사용됩니다.
이러한 각 방법은 NVIDIA GPUDirect RDMA over Converged Ethernet (RoCE) 또는 Infiniband 인프라에서 사용할 수 있으며 총 6개의 구성 방법을 제공합니다.
5.1. NVIDIA GPUDirect RDMA 사전 요구 사항 링크 복사링크가 클립보드에 복사되었습니다!
NVIDIA GPUDirect RDMA 구성의 모든 방법은 특정 Operator를 설치해야 합니다. Operator를 설치하려면 다음 단계를 사용하십시오.
- Node Feature Discovery Operator 를 설치합니다.
- SR-IOV Operator 를 설치합니다.
- NVIDIA Network Operator (NVIDIA 문서)를 설치합니다.
- NVIDIA GPU Operator (NVIDIA 문서)를 설치합니다.