2.4. 단일 모델 제공 플랫폼에서 모델 모니터링
단일 모델 제공 플랫폼에 배포된 모델을 모니터링하여 성능 및 리소스 사용량 메트릭을 볼 수 있습니다.
2.4.1. 배포된 모델의 성능 지표 보기 링크 복사링크가 클립보드에 복사되었습니다!
단일 모델 제공 플랫폼에 배포된 특정 모델에 대해 다음 메트릭을 모니터링할 수 있습니다.
- 요청 수 - 특정 모델에 대해 실패하거나 성공한 요청 수입니다.
- 평균 응답 시간(ms) - 요청에 응답하는 데 특정 모델이 걸리는 평균 시간입니다.
- CPU 사용률(%) - 현재 특정 모델에서 사용하는 모델 복제본당 CPU 제한의 백분율입니다.
- 메모리 사용률(%) - 특정 모델에서 사용하는 모델 복제본당 메모리 제한의 백분율입니다.
이러한 메트릭에 대한 시간 범위 및 새로 고침 간격을 지정하여 최대 사용 시간이 있고 지정된 시간에 모델을 수행하는 방법을 결정할 수 있습니다.
사전 요구 사항
- Red Hat OpenShift AI를 설치했습니다.
- Red Hat OpenShift AI에 로그인했습니다.
다음 대시보드 구성 옵션은 다음과 같이 기본값으로 설정됩니다.
disablePerformanceMetrics:false disableKServeMetrics:false
disablePerformanceMetrics:false disableKServeMetrics:falseCopy to Clipboard Copied! Toggle word wrap Toggle overflow 대시보드 구성 옵션 설정에 대한 자세한 내용은 대시보드 사용자 지정을 참조하십시오.
사전 설치된 런타임을 사용하여 단일 모델 서비스 플랫폼에 모델을 배포했습니다.
참고메트릭은 사전 설치된 model-serving 런타임 또는 사전 설치된 런타임에서 중복되는 사용자 지정 런타임을 사용하여 배포된 모델에 대해서만 지원됩니다.
프로세스
OpenShift AI 대시보드 탐색 메뉴에서 Data Science projects 를 클릭합니다.
데이터 사이언스 프로젝트 페이지가 열립니다.
- 모니터링할 데이터 과학 모델이 포함된 프로젝트의 이름을 클릭합니다.
- 프로젝트 세부 정보 페이지에서 모델 탭을 클릭합니다.
- 관심 있는 모델을 선택합니다.
끝점 성능 탭에서 다음 옵션을 설정합니다.
- 시간 범위 - 메트릭을 추적하는 기간을 지정합니다. 이 값 중 하나를 선택할 수 있습니다. 1 시간, 24 시간, 7 일 및 30 일.
- 새로 고침 간격 - 메트릭 페이지의 그래프가 새로 고쳐지는 빈도를 지정합니다(최신 데이터를 표시). 이 값 중 하나를 선택할 수 있습니다: 15 초, 30 초, 1 분, 5 분, 15 분, 30 분, 1 시간, 2 시간, 1 일.
- 아래로 스크롤하여 요청 수, 평균 응답 시간, CPU 사용률 및 메모리 사용률에 대한 데이터 그래프를 봅니다.
검증
끝점 성능 탭에는 모델에 대한 메트릭 그래프가 표시되어 있습니다.
2.4.2. 단일 모델 제공 플랫폼에 대한 모델 제공 런타임 메트릭 보기 링크 복사링크가 클립보드에 복사되었습니다!
클러스터 관리자가 단일 모델 서비스 플랫폼에 대한 모니터링을 구성한 경우 관리자가 아닌 사용자는 OpenShift 웹 콘솔을 사용하여 KServe 구성 요소의 모델 제공 런타임 지표를 볼 수 있습니다.
사전 요구 사항
- 개발자로 또는 메트릭을 보고 있는 프로젝트에 대한 보기 권한이 있는 사용자로 OpenShift 클러스터에 액세스할 수 있습니다.
- 사용자 정의 프로젝트에서 메트릭을 쿼리하는 방법에 대해 잘 알고 있습니다. AWS의 Red Hat OpenShift Service 의 개발자 화면을 사용하여 Red Hat OpenShift Dedicated 또는 Monitoring 프로젝트 및 애플리케이션 메트릭을 사용하여 프로젝트 및 애플리케이션 메트릭 모니터링을 참조하십시오.
프로세스
- OpenShift 웹 콘솔에 로그인합니다.
- 개발자 화면으로 전환합니다.
- 왼쪽 메뉴에서 모니터링 을 클릭합니다.
Red Hat OpenShift Dedicated에서 프로젝트 메트릭 모니터링 또는 AWS의 Red Hat OpenShift Service에서 프로젝트 메트릭 모니터링에 설명된 대로 웹 콘솔을 사용하여 cakeygent_* ,
,tgi_*ovms_*및vllm:*모델-serving 런타임 메트릭에 대한 쿼리를 실행합니다. OpenShift Service Mesh와 관련된istio_*메트릭에 대한 쿼리를 실행할 수도 있습니다. 몇 가지 예가 표시되어 있습니다.다음 쿼리는 vLLM 런타임으로 배포된 모델의 일정 기간 동안 성공적인 유추 요청 수를 표시합니다.
sum(increase(vllm:request_success_total{namespace=${namespace},model_name=${model_name}}[${rate_interval}]))sum(increase(vllm:request_success_total{namespace=${namespace},model_name=${model_name}}[${rate_interval}]))Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 쿼리는 독립 실행형 TGIS 런타임으로 배포된 모델의 일정 기간 동안 성공적인 유추 요청 수를 표시합니다.
sum(increase(tgi_request_success{namespace=${namespace}, pod=~${model_name}-predictor-.*}[${rate_interval}]))sum(increase(tgi_request_success{namespace=${namespace}, pod=~${model_name}-predictor-.*}[${rate_interval}]))Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 쿼리는 Cakeygent Standalone 런타임으로 배포된 모델의 일정 기간 동안 성공적인 유추 요청 수를 표시합니다.
sum(increase(predict_rpc_count_total{namespace=${namespace},code=OK,model_id=${model_name}}[${rate_interval}]))sum(increase(predict_rpc_count_total{namespace=${namespace},code=OK,model_id=${model_name}}[${rate_interval}]))Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 쿼리는 OpenVINO 모델 서버 런타임으로 배포된 모델의 일정 기간 동안 성공적인 유추 요청 수를 표시합니다.
sum(increase(ovms_requests_success{namespace=${namespace},name=${model_name}}[${rate_interval}]))sum(increase(ovms_requests_success{namespace=${namespace},name=${model_name}}[${rate_interval}]))Copy to Clipboard Copied! Toggle word wrap Toggle overflow