3장. NVIDIA NIM 모델 제공 플랫폼에 모델 배포
NVIDIA NIM 추론 서비스를 사용하여 NVIDIA NIM 모델 제공 플랫폼에서 모델을 배포할 수 있습니다.
NVIDIA AI Enterprise의 일부인 NVIDIA NIM은 클라우드, 데이터 센터 및 워크스테이션 전반에 걸쳐 고성능 AI 모델 추론을 안전하고 안정적으로 배포하도록 설계된 일련의 마이크로서비스입니다.
3.1. NVIDIA NIM 모델 제공 플랫폼에 모델 배포 링크 복사링크가 클립보드에 복사되었습니다!
NVIDIA NIM 모델 제공 플랫폼을 활성화하면 플랫폼에 NVIDIA에 최적화된 모델을 배포할 수 있습니다.
사전 요구 사항
- Red Hat OpenShift AI에 로그인했습니다.
- NVIDIA NIM 모델 제공 플랫폼을 활성화했습니다.
- 데이터 과학 프로젝트를 생성했습니다.
- OpenShift AI에서 GPU(그래픽 처리 단위)에 대한 지원이 활성화되어 있습니다. 여기에는 Node Feature Discovery Operator 및 NVIDIA GPU Operator 설치가 포함됩니다. 자세한 내용은 Node Feature Discovery Operator 설치 및 NVIDIA GPU 활성화를 참조하십시오.
프로세스
왼쪽 메뉴에서 데이터 과학 프로젝트를 클릭합니다.
데이터 사이언스 프로젝트 페이지가 열립니다.
모델을 배포할 프로젝트의 이름을 클릭합니다.
프로젝트 세부 정보 페이지가 열립니다.
- 모델 탭을 클릭합니다.
모델 섹션에서 다음 작업 중 하나를 수행합니다.
- NVIDIA NIM 모델 서비스 플랫폼 타일에서 타일 에서 NVIDIA NIM 선택을 클릭한 다음 모델 배포를 클릭합니다.
- 이전에 NVIDIA NIM 모델 제공 유형을 선택한 경우 모델 페이지에는 배포 모델 버튼과 함께 오른쪽 상단에 NVIDIA 모델 서비스가 활성화됩니다. 계속하려면 배포 모델을 클릭합니다.
모델 배포 대화 상자가 열립니다.
다음과 같이 모델 배포를 위한 속성을 구성합니다.
- 모델 배포 이름 필드에 배포에 대한 고유한 이름을 입력합니다.
- NVIDIA NIM 목록에서 배포하려는 NVIDIA NIM 모델을 선택합니다. 자세한 내용은 지원 모델을 참조하십시오.
NVIDIA NIM 스토리지 크기 필드에서 NVIDIA NIM 모델을 저장하도록 생성될 클러스터 스토리지 인스턴스의 크기를 지정합니다.
참고OpenShift AI에서 Amazon EBS에서 지원하는 PVC( PersistentVolumeClaim)
의 크기를 조정할 때 VolumeModificationRateExceeded가 발생할 수 있습니다. 볼륨 제한당 최대 수정 비율에 도달했습니다.이 오류를 방지하려면 EBS 볼륨당 수정 사항 사이에 최소 6시간 정도 기다립니다. oldown이 만료되기 전에 PVC의 크기를 조정하면 Amazon EBS CSI 드라이버 (ebs.csi.aws.com)가 이 오류와 함께 실패합니다. 이 오류는 EBS 지원 PVC를 사용하는 모든 워크로드에 적용되는 Amazon EBS 서비스 제한입니다.- 배포할 모델 서버 복제본 수에서 값을 지정합니다.In the Number of model server replicas to deploy field, specify a value.
- 모델 서버 크기 목록에서 값을 선택합니다.From the Model server size list, select a value.
하드웨어 프로필 목록에서 하드웨어 프로필을 선택합니다.
중요기본적으로 하드웨어 프로필은 대시보드 탐색 메뉴 및 사용자 인터페이스에 숨겨져 있지만 액셀러레이터 프로필은 계속 표시됩니다. 또한 더 이상 사용되지 않는 가속기 프로필 기능과 관련된 사용자 인터페이스 구성 요소가 계속 표시됩니다. 하드웨어 프로필을 활성화하면 Accelerator 프로필 목록 대신 Hardware profiles 목록이 표시됩니다. 대시보드 탐색 메뉴에서 설정
하드웨어 프로필 옵션을 표시하려면 OpenShift의 OdhDashboardConfigCR(사용자 정의 리소스)에서disableHardwareProfiles값을false로 설정합니다. 대시보드 구성 옵션 설정에 대한 자세한 내용은 대시보드 사용자 지정을 참조하십시오.선택 사항: 리소스 요청 사용자 지정을 클릭하고 다음 값을 제한하고 업데이트합니다.
- CPU requests 필드에서 모델 서버와 함께 사용할 CPU 수를 지정합니다. 이 필드 옆에 있는 목록을 사용하여 코어 또는 밀리코어에 값을 지정합니다.
- CPU 제한 필드에서 모델 서버와 함께 사용할 최대 CPU 수를 지정합니다. 이 필드 옆에 있는 목록을 사용하여 코어 또는 밀리코어에 값을 지정합니다.
- 메모리 요청 필드에서 모델 서버의 요청된 메모리를 기비바이트(Gi)로 지정합니다.
- 메모리 제한 필드에서 모델 서버의 최대 메모리 제한을 기가바이트(Gi)로 지정합니다.
- 선택 사항: 모델 경로 섹션에서 외부 경로 확인란을 통해 사용 가능한 배포된 모델 만들기 확인란을 선택하여 배포된 모델을 외부 클라이언트에서 사용할 수 있도록 합니다.
배포된 모델에 대한 유추 요청에 대한 토큰 인증이 필요한 경우 다음 작업을 수행합니다.
- 토큰 인증 필요 를 선택합니다.
- 서비스 계정 이름 필드에 토큰이 생성될 서비스 계정 이름을 입력합니다.
- 추가 서비스 계정을 추가하려면 서비스 계정 추가를 클릭하고 다른 서비스 계정 이름을 입력합니다.
- Deploy 를 클릭합니다.
검증
- 배포된 모델이 프로젝트의 모델 탭과 상태 열에 확인 표시를 사용하여 대시보드의 모델 배포 페이지에 표시되는지 확인합니다.