2.20. NVIDIA NIM 모델 제공 플랫폼 정보

NVIDIA NIM 추론 서비스를 사용하여 NVIDIA NIM 모델 제공 플랫폼에서 모델을 배포할 수 있습니다.

NVIDIA AI Enterprise의 일부인 NVIDIA NIM은 클라우드, 데이터 센터 및 워크스테이션 전반에 걸쳐 고성능 AI 모델 추론을 안전하고 안정적으로 배포하도록 설계된 일련의 마이크로서비스입니다.

추가 리소스

NVIDIA NIM

2.20.1. NVIDIA NIM 모델 제공 플랫폼 활성화

관리자는 Red Hat OpenShift AI 대시보드를 사용하여 NVIDIA NIM 모델 서비스 플랫폼을 활성화할 수 있습니다.

참고

이전에 OpenShift AI에서 NVIDIA NIM 모델 서비스를 활성화한 다음 최신 버전으로 업그레이드한 경우 NVIDIA NGC API 키를 다시 입력하여 NVIDIA NIM 모델 제공 플랫폼을 다시 활성화합니다.

사전 요구 사항

Red Hat OpenShift AI에 관리자로 로그인했습니다.
단일 모델 제공 플랫폼을 활성화했습니다. 사전 설치된 런타임을 활성화할 필요가 없습니다. 단일 모델 제공 플랫폼 활성화에 대한 자세한 내용은 단일 모델 제공 플랫폼 활성화를 참조하십시오.
disableNIMModelServing OpenShift AI 대시보드 구성이 false 로 설정됩니다.
```
disableNIMModelServing: false
```
자세한 내용은 대시보드 구성 옵션을 참조하십시오.
OpenShift AI에서 GPU 지원을 활성화했습니다. 여기에는 Node Feature Discovery Operator 및 NVIDIA GPU Operator 설치가 포함됩니다. 자세한 내용은 Node Feature Discovery Operator 설치 및 NVIDIA GPU 활성화를 참조하십시오.
NVIDIA Cloud Account(NCA)를 보유하고 있으며 NVIDIA GPU Cloud(NGC) 포털에 액세스할 수 있습니다. 자세한 내용은 NVIDIA GPU Cloud 사용자 가이드를 참조하십시오.
NCA 계정이 NVIDIA AI Enterprise Viewer 역할과 연결되어 있습니다.
NGC 포털에서 NGC API 키를 생성했습니다. 자세한 내용은 NGC API 키를 참조하십시오.

프로세스

OpenShift AI에 로그인합니다.
OpenShift AI 대시보드의 왼쪽 메뉴에서 애플리케이션 탐색을 클릭합니다.
탐색 페이지에서 NVIDIA NIM 타일을 찾습니다.
애플리케이션 타일에서 사용을 클릭합니다.
NGC API 키를 입력한 다음 Submit 을 클릭합니다.

검증

활성화한 NVIDIA NIM 애플리케이션이 사용됨 페이지에 표시됩니다.

2.20.2. NVIDIA NIM 모델 제공 플랫폼에 모델 배포

NVIDIA NIM 모델 제공 플랫폼을 활성화하면 플랫폼에 NVIDIA에 최적화된 모델을 배포할 수 있습니다.

사전 요구 사항

Red Hat OpenShift AI에 로그인했습니다.
OpenShift AI 그룹을 사용하는 경우 OpenShift의 사용자 그룹 또는 관리자 그룹(예: rhoai-users 또는 rhoai-admins)의 일부입니다.
NVIDIA NIM 모델 제공 플랫폼을 활성화했습니다.
데이터 과학 프로젝트를 생성했습니다.
OpenShift AI에서 GPU(그래픽 처리 단위)에 대한 지원이 활성화되어 있습니다. 여기에는 Node Feature Discovery Operator 및 NVIDIA GPU Operator 설치가 포함됩니다. 자세한 내용은 Node Feature Discovery Operator 설치 및 NVIDIA GPU 활성화를 참조하십시오.

프로세스

왼쪽 메뉴에서 Data Science Projects 를 클릭합니다.
Data Science Projects 페이지가 열립니다.
모델을 배포할 프로젝트의 이름을 클릭합니다.
프로젝트 세부 정보 페이지가 열립니다.
모델 탭을 클릭합니다.
모델 섹션에서 다음 작업 중 하나를 수행합니다.
- NVIDIA NIM 모델 서비스 플랫폼 타일에서 타일 에서 NVIDIA NIM 선택을 클릭한 다음 모델 배포를 클릭합니다.
- 이전에 NVIDIA NIM 모델 제공 유형을 선택한 경우 모델 페이지에는 배포 모델 버튼과 함께 오른쪽 상단에 NVIDIA 모델 서비스가 활성화됩니다. 계속하려면 배포 모델을 클릭합니다.
모델 배포 대화 상자가 열립니다.
다음과 같이 모델 배포를 위한 속성을 구성합니다.
1. 모델 배포 이름 필드에 배포에 대한 고유한 이름을 입력합니다.
2. NVIDIA NIM 목록에서 배포하려는 NVIDIA NIM 모델을 선택합니다. 자세한 내용은 지원 모델을 참조하십시오.
3. NVIDIA NIM 스토리지 크기 필드에서 NVIDIA NIM 모델을 저장하도록 생성될 클러스터 스토리지 인스턴스의 크기를 지정합니다.
4. 배포할 모델 서버 복제본 수에서 값을 지정합니다.In the Number of model server replicas to deploy field, specify a value.
5. 모델 서버 크기 목록에서 값을 선택합니다.From the Model server size list, select a value.
6. 액셀러레이터 목록에서 가속기 를 선택합니다.
  액셀러레이터 필드가 표시됩니다.
7. 수 의 가속기 필드에서 사용할 가속기의 수를 지정합니다. 기본값은 1입니다.
선택 사항: 모델 경로 섹션에서 외부 경로 확인란을 통해 사용 가능한 배포된 모델 만들기 확인란을 선택하여 배포된 모델을 외부 클라이언트에서 사용할 수 있도록 합니다.
배포된 모델에 대한 유추 요청에 대한 토큰 권한 부여가 필요한 경우 다음 작업을 수행합니다.
1. 토큰 권한 부여 필요 를 선택합니다.
2. 서비스 계정 이름 필드에 토큰이 생성될 서비스 계정 이름을 입력합니다.
3. 추가 서비스 계정을 추가하려면 서비스 계정 추가를 클릭하고 다른 서비스 계정 이름을 입력합니다.
Deploy 를 클릭합니다.

검증

배포된 모델이 프로젝트의 모델 탭과 상태 열에 확인 표시를 사용하여 대시보드의 모델 Serving 페이지에 표시되는지 확인합니다.

추가 리소스

2.20.3. 기존 NIM 배포에 대한 NVIDIA NIM 메트릭 활성화

이전에 OpenShift AI에 NIM 모델을 배포한 다음 2.17로 업그레이드한 경우 메트릭 수집 및 그래프 생성을 활성화하는 주석을 추가하여 기존 배포에 대해 NIM 메트릭을 수동으로 활성화해야 합니다.

참고

2.17의 새 배포에 대해 NIM 메트릭 및 그래프가 자동으로 활성화됩니다.

2.20.3.1. 기존 NIM 배포에 대한 그래프 생성 활성화

다음 절차에서는 기존 NIM 배포에 대해 그래프 생성을 활성화하는 방법을 설명합니다.

사전 요구 사항

OpenShift 클러스터에 대한 클러스터 관리자 권한이 있습니다.
OpenShift CLI(명령줄 인터페이스)를 다운로드하여 설치했습니다. 자세한 내용은 OpenShift CLI 설치를 참조하십시오.
OpenShift AI에는 기존 NIM 배포가 있습니다.

프로세스

터미널 창에서 클러스터 관리자로 OpenShift 클러스터에 로그인하지 않은 경우 OpenShift CLI에 로그인합니다.
NIM 배포와 연결된 ServingRuntime 의 이름을 확인합니다.
```
oc get servingruntime -n <namespace>
```
& lt;namespace >를 NIM 모델이 배포된 프로젝트의 네임스페이스로 바꿉니다.
ServingRuntime 구성의 기존 metadata.annotations 섹션을 확인합니다.
```
oc get servingruntime -n  <namespace> <servingruntime-name> -o json | jq '.metadata.annotations'
```
<servingruntime-name>을 이전 단계의 ServingRuntime 이름으로 바꿉니다.

다음 작업 중 하나를 수행합니다.

metadata.annotations 섹션이 구성에 없는 경우 필요한 주석이 있는 섹션을 추가합니다.

oc patch servingruntime -n <namespace> <servingruntime-name> --type json --patch \
 '[{"op": "add", "path": "/metadata/annotations", "value": {"runtimes.opendatahub.io/nvidia-nim": "true"}}]'

다음과 유사한 출력이 표시됩니다.

servingruntime.serving.kserve.io/nim-serving-runtime patched

기존 metadata.annotations 섹션이 있는 경우 필요한 주석을 섹션에 추가합니다.

oc patch servingruntime -n <project-namespace> <runtime-name> --type json --patch \
 '[{"op": "add", "path": "/metadata/annotations/runtimes.opendatahub.io~1nvidia-nim", "value": "true"}]'

다음과 유사한 출력이 표시됩니다.

servingruntime.serving.kserve.io/nim-serving-runtime patched

검증

주석이 기존 NIM 배포의 ServingRuntime 에 추가되었는지 확인합니다.
```
oc get servingruntime -n <namespace> <servingruntime-name> -o json | jq '.metadata.annotations'
```
추가한 주석이 출력에 표시됩니다.
```
...
"runtimes.opendatahub.io/nvidia-nim": "true"
```
참고
그래프 생성에 메트릭을 사용할 수 있으려면 배포에 대한 메트릭 컬렉션도 활성화해야 합니다. 기존 NIM 배포의 메트릭 컬렉션 활성화를 참조하십시오.

2.20.3.2. 기존 NIM 배포에 대한 메트릭 컬렉션 활성화

기존 NIM 배포에 대한 메트릭 컬렉션을 활성화하려면 배포의 InferenceService 에 Prometheus 끝점 및 포트 주석을 수동으로 추가해야 합니다.

다음 절차에서는 NIM 배포의 InferenceService 에 필요한 Prometheus 주석을 추가하는 방법을 설명합니다.

사전 요구 사항

OpenShift 클러스터에 대한 클러스터 관리자 권한이 있습니다.
OpenShift CLI(명령줄 인터페이스)를 다운로드하여 설치했습니다. 자세한 내용은 OpenShift CLI 설치를 참조하십시오.
OpenShift AI에는 기존 NIM 배포가 있습니다.

프로세스

터미널 창에서 클러스터 관리자로 OpenShift 클러스터에 로그인하지 않은 경우 OpenShift CLI에 로그인합니다.
NIM 배포와 연결된 InferenceService 의 이름을 확인합니다.
```
oc get inferenceservice -n <namespace>
```
& lt;namespace >를 NIM 모델이 배포된 프로젝트의 네임스페이스로 바꿉니다.
InferenceService 구성에 기존 spec.predictor.annotations 섹션이 있는지 확인합니다.
```
oc get inferenceservice -n <namespace> <inferenceservice-name> -o json | jq '.spec.predictor.annotations'
```
<inferenceservice-name>을 이전 단계의 InferenceService 의 이름으로 바꿉니다.

다음 작업 중 하나를 수행합니다.

spec.predictor.annotations 섹션이 구성에 없는 경우 섹션 및 필수 주석을 추가합니다.

oc patch inferenceservice -n <namespace> <inference-name> --type json --patch \
 '[{"op": "add", "path": "/spec/predictor/annotations", "value": {"prometheus.io/path": "/metrics", "prometheus.io/port": "8000"}}]'

추가한 주석이 출력에 표시됩니다.

inferenceservice.serving.kserve.io/nim-serving-runtime patched

기존 spec.predictor.annotations 섹션이 있는 경우 섹션에 Prometheus 주석을 추가합니다.

oc patch inferenceservice -n <namespace> <inference-service-name> --type json --patch \
 '[{"op": "add", "path": "/spec/predictor/annotations/prometheus.io~1path", "value": "/metrics"},
 {"op": "add", "path": "/spec/predictor/annotations/prometheus.io~1port", "value": "8000"}]'

추가한 주석이 출력에 표시됩니다.

inferenceservice.serving.kserve.io/nim-serving-runtime patched

검증

주석이 InferenceService 에 추가되었는지 확인합니다.

oc get inferenceservice -n <namespace> <inferenceservice-name> -o json | jq '.spec.predictor.annotations'

출력에 추가한 주석이 표시됩니다.

{
  "prometheus.io/path": "/metrics",
  "prometheus.io/port": "8000"
}

2.20.4. NIM 모델에 대한 NVIDIA NIM 메트릭 보기

OpenShift AI에서는 NVIDIA NIM 모델 제공 플랫폼에 배포된 NIM 모델에 대해 다음 NVIDIA NIM 메트릭을 확인할 수 있습니다.

시간 경과에 따른 GPU 캐시 사용량 (ms)
현재 실행 중, 대기 및 최대 요청 수
토큰 수
첫 번째 토큰까지의 시간
출력 토큰당 시간
요청 결과

이러한 메트릭의 시간 범위 및 새로 고침 간격을 지정하면 지정된 시간에 최대 사용 시간과 모델 성능을 결정하는 데 도움이 됩니다.

사전 요구 사항

NVIDIA NIM 모델 제공 플랫폼을 활성화했습니다.
NIM 모델을 NVIDIA NIM 모델 제공 플랫폼에 배포했습니다.
OpenShift AI 그룹을 사용하는 경우 OpenShift의 사용자 그룹 또는 관리자 그룹(예: rhoai-users 또는 rhoai-admins)의 일부입니다.
disableKServeMetrics OpenShift AI 대시보드 구성 옵션은 기본값 false 로 설정됩니다.
```
disableKServeMetrics: false
```
자세한 내용은 대시보드 구성 옵션을 참조하십시오.

프로세스

OpenShift AI 대시보드 탐색 메뉴에서 Data Science Projects 를 클릭합니다.
Data Science Projects 페이지가 열립니다.
모니터링할 NIM 모델이 포함된 프로젝트의 이름을 클릭합니다.
프로젝트 세부 정보 페이지에서 모델 탭을 클릭합니다.
관찰할 NIM 모델을 클릭합니다.
NIM 지표 탭에서 다음 옵션을 설정합니다.
- 시간 범위 - 메트릭을 추적하는 기간을 지정합니다. 이 값 중 하나를 선택할 수 있습니다. 1 시간, 24 시간, 7 일 및 30 일.
- 새로 고침 간격 - 메트릭 페이지의 그래프가 새로 고쳐지는 빈도를 지정합니다(최신 데이터를 표시). 이 값 중 하나를 선택할 수 있습니다: 15 초, 30 초, 1 분, 5 분, 15 분, 30 분, 1 시간, 2 시간, 1 일.
아래로 스크롤하여 NIM 메트릭의 데이터 그래프를 봅니다.

검증

NIM 지표 탭에는 배포된 NIM 모델에 대한 NIM 메트릭 그래프가 표시되어 있습니다.

추가 리소스

NVIDIA NIM 관찰 기능

2.20.5. NIM 모델의 성능 메트릭 보기

NVIDIA NIM 모델 제공 플랫폼에 배포된 NIM 모델에 대해 다음과 같은 성능 메트릭을 확인할 수 있습니다.

요청 수 - 특정 모델에 대해 실패하거나 성공한 요청 수입니다.
평균 응답 시간(ms) - 요청에 응답하는 데 특정 모델이 걸리는 평균 시간입니다.
CPU 사용률(%) - 현재 특정 모델에서 사용하는 모델 복제본당 CPU 제한의 백분율입니다.
메모리 사용률(%) - 특정 모델에서 사용하는 모델 복제본당 메모리 제한의 백분율입니다.

이러한 메트릭의 시간 범위 및 새로 고침 간격을 지정하면 지정된 시간에 최대 사용 시간과 모델 성능을 결정하는 데 도움이 됩니다.

사전 요구 사항

NVIDIA NIM 모델 제공 플랫폼을 활성화했습니다.
NIM 모델을 NVIDIA NIM 모델 제공 플랫폼에 배포했습니다.
OpenShift AI 그룹을 사용하는 경우 OpenShift의 사용자 그룹 또는 관리자 그룹(예: rhoai-users 또는 rhoai-admins)의 일부입니다.
disableKServeMetrics OpenShift AI 대시보드 구성 옵션은 기본값 false 로 설정됩니다.
```
disableKServeMetrics: false
```
자세한 내용은 대시보드 구성 옵션을 참조하십시오.

프로세스

OpenShift AI 대시보드 탐색 메뉴에서 Data Science Projects 를 클릭합니다.
Data Science Projects 페이지가 열립니다.
모니터링할 NIM 모델이 포함된 프로젝트의 이름을 클릭합니다.
프로젝트 세부 정보 페이지에서 모델 탭을 클릭합니다.
관찰할 NIM 모델을 클릭합니다.
끝점 성능 탭에서 다음 옵션을 설정합니다.
- 시간 범위 - 메트릭을 추적하는 기간을 지정합니다. 이 값 중 하나를 선택할 수 있습니다. 1 시간, 24 시간, 7 일 및 30 일.
- 새로 고침 간격 - 메트릭 페이지의 그래프가 새로 고쳐 최신 데이터를 표시하는 빈도를 지정합니다. 이 값 중 하나를 선택할 수 있습니다: 15 초, 30 초, 1 분, 5 분, 15 분, 30 분, 1 시간, 2 시간, 1 일.
아래로 스크롤하여 성능 지표의 데이터 그래프를 확인합니다.

검증

Endpoint 성능 탭에는 배포된 NIM 모델의 성능 지표 그래프가 표시되어 있습니다.

2.20. NVIDIA NIM 모델 제공 플랫폼 정보

2.20.1. NVIDIA NIM 모델 제공 플랫폼 활성화

2.20.2. NVIDIA NIM 모델 제공 플랫폼에 모델 배포

2.20.3. 기존 NIM 배포에 대한 NVIDIA NIM 메트릭 활성화

2.20.3.1. 기존 NIM 배포에 대한 그래프 생성 활성화

2.20.3.2. 기존 NIM 배포에 대한 메트릭 컬렉션 활성화

2.20.4. NIM 모델에 대한 NVIDIA NIM 메트릭 보기

2.20.5. NIM 모델의 성능 메트릭 보기

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 소개

Red Hat legal and privacy links

Red Hat legal and privacy links