7.3. AMD GPU 통합
OpenShift AI와 함께 AMD GPU를 사용하여 AI 및 ML(Machine learning) 워크로드를 가속화할 수 있습니다. AMD GPU는 고성능 컴퓨팅 기능을 제공하여 사용자가 대규모 데이터 세트를 처리하고, 딥 러닝 네트워크를 교육하며, 복잡한 추론 작업을 보다 효율적으로 수행할 수 있습니다.
AMD GPU를 OpenShift AI와 통합하려면 다음 구성 요소가 포함됩니다.
- ROCm 워크벤치 이미지: ROCm 워크벤치 이미지를 사용하여 AMD GPU에서 AI/ML 워크플로를 간소화합니다. 이러한 이미지에는 AMD ROCm 플랫폼에 최적화된 라이브러리 및 프레임워크가 포함되어 PyTorch 및 TensorFlow의 고성능 워크로드를 지원합니다. 사전 구성된 이미지는 설정 시간을 줄이고 GPU 가속 개발 및 실험에 최적화된 환경을 제공합니다.
- AMD GPU Operator: AMD GPU Operator는 GPU 리소스 관리를 위한 드라이버 설치, 장치 플러그인 설정 및 노드 라벨링을 자동화하여 GPU 통합을 단순화합니다. GPU 지원 워크로드를 확장하면서 OpenShift와 AMD 하드웨어 간의 호환성을 보장합니다.
7.3.1. 클러스터에서 AMD GPU 가용성 확인
AMD GPU Operator 설치 프로세스를 진행하기 전에 OpenShift 클러스터 내의 노드에 AMD GPU 장치가 있는지 확인할 수 있습니다. lspci
또는 oc
와 같은 명령을 사용하여 하드웨어 및 리소스 가용성을 확인할 수 있습니다.
사전 요구 사항
- OpenShift 클러스터에 대한 관리자 액세스 권한이 있어야 합니다.
- AMD GPU가 탑재된 노드가 있는 실행 중인 OpenShift 클러스터가 있어야 합니다.
-
OpenShift CLI(
oc
)에 액세스하고 노드에 대한 터미널 액세스 권한이 있어야 합니다.
절차
OpenShift CLI를 사용하여 GPU 리소스를 할당할 수 있는지 확인합니다.
클러스터의 모든 노드를 나열하여 AMD GPU로 노드를 식별합니다.
oc get nodes
- AMD GPU가 있을 것으로 예상되는 노드의 이름을 기록해 둡니다.
리소스 할당을 확인하도록 노드를 설명합니다.
oc describe node <node_name>
출력에서 Capacity 및 Allocatable 섹션을 찾아
amd.com/gpu
가 나열되어 있는지 확인합니다. 예를 들면 다음과 같습니다.Capacity: amd.com/gpu: 1 Allocatable: amd.com/gpu: 1
lspci
명령을 사용하여 AMD GPU 장치를 확인합니다.노드에 로그인합니다.
oc debug node/<node_name> chroot /host
lspci
명령을 실행하고 배포에서 지원되는 AMD 장치를 검색합니다. 예를 들면 다음과 같습니다.lspci | grep -E "MI210|MI250|MI300"
출력에 AMD GPU 모델 중 하나가 포함되어 있는지 확인합니다. 예를 들면 다음과 같습니다.
03:00.0 Display controller: Advanced Micro Devices, Inc. [AMD] Instinct MI210
선택 사항: ROCm 스택이 노드에 설치된 경우
rocminfo
명령을 사용합니다.rocminfo
- ROCm 툴이 컴퓨팅 단위, 메모리, 드라이버 상태와 같은 AMD GPU에 대한 세부 정보를 출력하는지 확인합니다.
검증
-
oc describe node <node_name
> 명령은 용량 및 Allocatable 아래에amd.com/gpu
를 나열합니다. -
lspci
명령 출력은 지정된 모델 중 하나와 일치하는 PCI 장치(예:MI210,MI250,MI300)로 AMD GPU를 식별합니다. -
선택 사항:
rocminfo
툴에서는 자세한 GPU 정보를 제공하여 드라이버 및 하드웨어 구성을 확인합니다.
7.3.2. AMD GPU 활성화
OpenShift AI에서 AMD GPU를 사용하려면 필요한 종속 항목을 설치하고 AMD GPU Operator를 배포하고 환경을 구성해야 합니다.
사전 요구 사항
- OpenShift에 로그인했습니다.
-
OpenShift에
cluster-admin
역할이 있습니다. - AMD GPU를 설치하고 사용자 환경에서 탐지되었는지 확인했습니다.
- AWS(Amazon Web Services)에서 실행 중인 경우 OpenShift 환경에서는 EC2 DL1 인스턴스를 지원합니다.
절차
- OpenShift에 AMD GPU Operator 설치에 설명된 대로 최신 버전의 AMD GPU Operator를 설치합니다.
- AMD GPU Operator를 설치한 후 설명서에 설명된 대로 Operator에 필요한 AMD 드라이버를 구성합니다. GPU Operator에 대해 AMD 드라이버를 구성합니다.
또는 Red Hat Catalog에서 AMD GPU Operator를 설치할 수 있습니다. 자세한 내용은 Install AMD GPU Operator from Red Hat Catalog 에서 참조하십시오.
- AMD GPU Operator를 설치한 후 액셀러레이터 프로필 작업에 설명된 대로 액셀러레이터 프로필을 생성합니다.
검증
관리자 화면에서 Operator
- AMD GPU Operator
- NFD(Node Feature Discovery)
- 커널 모듈 관리 (KMM)
적절한 드라이버 설치 및 구성을 위해 모든 단계를 수행해야 합니다. 잘못된 설치 또는 구성으로 인해 AMD GPU가 제대로 인식되거나 작동하지 않을 수 있습니다.