12.3. NVIDIA GPU 관리 대시보드 사용
OpenShift Console NVIDIA GPU 플러그인을 배포한 후 로그인 인증 정보를 사용하여 OpenShift Container Platform 웹 콘솔에 로그인하여 관리자 화면에 액세스합니다.
변경 사항을 보려면 콘솔을 새로 고쳐 Compute 아래에 GPU 탭을 확인해야 합니다.
12.3.1. 클러스터 GPU 개요 보기
홈 섹션에서 개요를 선택하여 개요 페이지에서 클러스터 GPU의 상태를 볼 수 있습니다.
개요 페이지에서는 다음을 포함하여 클러스터 GPU에 대한 정보를 제공합니다.
- GPU 공급자에 대한 세부 정보
- GPU 상태
- GPU의 클러스터 사용률
12.3.2. GPU 대시보드 보기
OpenShift 콘솔의 Compute 섹션에서 GPU를 선택하여 NVIDIA GPU 관리 대시보드를 볼 수 있습니다.
GPU 대시보드의 차트는 다음과 같습니다.
-
GPU 사용률: 그래픽 엔진이 활성화된 시간의 비율을 표시하고
DCGM_FI_PROF_GR_ENGINE_ACTIVE
메트릭을 기반으로 합니다. -
메모리 사용률: GPU에서 사용하는 메모리를 표시하고
DCGM_FI_DEV_MEM_COPY_UTIL
메트릭을 기반으로 합니다. -
인코더 사용률: 비디오 인코더 사용률을 표시하며
DCGM_FI_DEV_ENC_UTIL
메트릭을 기반으로 합니다. -
디코더 사용:인코더 사용률: 사용 의 비디오 디코더 속도를 표시하고
DCGM_FI_DEV_DEC_UTIL
메트릭을 기반으로 합니다. -
전력 소비: 와트에서 GPU의 평균 전원 사용량을 표시하고
DCGM_FI_DEV_POWER_USAGE
메트릭을 기반으로 합니다. -
GPU 온도: 현재 GPU 기온을 표시하고
DCGM_FI_DEV_GPU_TEMP
메트릭을 기반으로 합니다. 최대값은 실제 숫자가 메트릭을 통해 노출되지 않기 때문에 경험적 번호인110
으로 설정됩니다. -
GPU 클럭 속도: GPU에서 사용하는 평균 클럭 속도를 표시하고
DCGM_FI_DEV_SM_CLOCK
메트릭을 기반으로 합니다. -
메모리 클럭 속도: 메모리에 사용되는 평균 클럭 속도를 나타내며
DCGM_FI_DEV_MEM_CLOCK
메트릭을 기반으로 합니다.
12.3.3. GPU 지표 보기
각 GPU 하단에서 메트릭을 선택하여 지표 페이지를 볼 수 있습니다.
지표 페이지에서 다음을 수행할 수 있습니다.
- 메트릭에 대한 새로 고침 비율을 지정합니다.
- 쿼리 추가, 실행, 비활성화 및 삭제Add, run, disable, and delete queries
- 메트릭 삽입
- 확대/축소 보기 재설정