5장. NVIDIA GPU 아키텍처 개요
NVIDIA는 AWS의 Red Hat OpenShift Service에서 GPU(그래픽 처리 장치) 리소스 사용을 지원합니다. AWS의 Red Hat OpenShift Service는 대규모 Kubernetes 클러스터를 배포하고 관리하기 위해 Red Hat에서 개발 및 지원하는 보안 중심 및 강화된 Kubernetes 플랫폼입니다. Red Hat OpenShift Service on AWS에는 Kubernetes에 대한 개선 사항이 포함되어 있어 사용자가 NVIDIA GPU 리소스를 쉽게 구성하고 사용하여 워크로드를 가속화할 수 있습니다.
NVIDIA GPU Operator는 AWS의 Red Hat OpenShift Service 내에서 Operator 프레임워크를 활용하여 GPU 가속 워크로드를 실행하는 데 필요한 NVIDIA 소프트웨어 구성 요소의 전체 라이프사이클을 관리합니다.
이러한 구성 요소에는 NVIDIA 드라이버( CUDA 활성화), GPU용 Kubernetes 장치 플러그인, NVIDIA 컨테이너 툴킷, GPU 기능 검색을 사용한 자동 노드 태그 지정, DCGM 기반 모니터링 등이 포함됩니다.
NVIDIA GPU Operator는 NVIDIA에서만 지원됩니다. NVIDIA에서 지원을 얻는 방법에 대한 자세한 내용은 NVIDIA에서 지원 받기를 참조하십시오.
5.1. NVIDIA GPU 사전 요구 사항
- GPU 작업자 노드가 하나 이상 있는 작동 중인 OpenShift 클러스터입니다.
-
필요한 단계를 수행하려면
cluster-admin
으로 OpenShift 클러스터에 액세스할 수 있습니다. -
OpenShift CLI(
oc
)가 설치되어 있어야 합니다. -
NFD(노드 기능 검색) Operator가 설치되고
nodefeaturediscovery
인스턴스가 생성됩니다.