2.2. 단일 모델 제공 플랫폼에 모델 배포
모델 배포 마법사를 사용하여 단일 모델 서비스 플랫폼에Generative AI(Generative AI) 또는 Predictive AI 모델을 배포 할 수 있습니다. 마법사를 사용하면 위치 및 유형 지정, 제공 런타임 선택, 하드웨어 프로필 할당, 외부 경로 및 토큰 인증과 같은 고급 구성 설정을 포함하여 모델을 구성할 수 있습니다.
모델을 성공적으로 배포하려면 다음 사전 요구 사항을 충족해야 합니다.
일반 사전 요구 사항
- Red Hat OpenShift AI에 로그인했습니다.
- KServe를 설치하고 단일 모델 제공 플랫폼을 활성화했습니다.
- 사전 설치된 모델 서비스 또는 사용자 지정 model-serving 런타임을 활성화했습니다.
- 프로젝트를 생성했습니다.
- S3 호환 오브젝트 스토리지, URI 기반 리포지토리, OCI 호환 레지스트리 또는 PVC(영구 볼륨 클레임)에 액세스할 수 있으며 프로젝트에 연결을 추가했습니다. 연결 추가에 대한 자세한 내용은 프로젝트에 연결 추가를 참조하십시오.
- 모델 서버에서 GPU(그래픽 처리 장치)를 사용하려는 경우 OpenShift AI에서 GPU 지원을 활성화했습니다. NVIDIA GPU를 사용하는 경우 NVIDIA GPU 활성화를 참조하십시오. AMD GPU를 사용하는 경우 AMD GPU 통합을 참조하십시오.
런타임별 사전 요구 사항
사용하려는 특정 런타임에 대한 요구 사항을 충족합니다.
cainitiatort-TGIS 런타임
- Cakeygent-TGIS 런타임을 사용하려면 모델을 Cafindt 형식으로 변환했습니다. 예를 들어 caovnt-tgis-serving 리포지토리의 cakeyt 형식으로의 Hugging faces Hub 모델 변환을 참조하십시오.
KServe 용 vLLM NVIDIA GPU ServingRuntime
- KServe 런타임에 vLLM NVIDIA GPU ServingRuntime을 사용하려면 OpenShift AI에서 GPU 지원을 활성화하고 클러스터에 Node Feature Discovery Operator를 설치 및 구성했습니다. 자세한 내용은 Node Feature Discovery Operator 설치 및 NVIDIA GPU 활성화를 참조하십시오.
KServe의 vLLM CPU ServingRuntime
- IBM Z 및 IBM Power에서 VLLM 런타임을 사용하려면 KServe 용으로 vLLM CPU ServingRuntime을 사용합니다. IBM Z 및 IBM Power 아키텍처에서는 GPU 액셀러레이터를 사용할 수 없습니다. 자세한 내용은 Red Hat OpenShift Multi Architecture Component Availability Matrix 를 참조하십시오.
KServe 용 vLLM Intel Gaudi Accelerator ServingRuntime
- KServe 런타임에서 vLLM Intel Gaudi Accelerator ServingRuntime 을 사용하려면 OpenShift AI에서 하이브리드 처리 단위(HPU)에 대한 지원을 활성화했습니다. 여기에는 Intel Gaudi Base Operator 설치 및 하드웨어 프로필 구성이 포함됩니다. 자세한 내용은 AMD 문서의 Intel Gaudi Base Operator OpenShift 설치 및 하드웨어 프로필 작업을 참조하십시오.
KServe용 vLLM AMD GPU ServingRuntime
- KServe 런타임용 vLLM AMD GPU ServingRuntime 을 사용하려면 OpenShift AI에서 AMD GPU(그래픽 처리 단위)에 대한 지원을 활성화했습니다. 여기에는 AMD GPU Operator 설치 및 하드웨어 프로파일 구성이 포함됩니다. 자세한 내용은 OpenShift에 AMD GPU Operator 배포 및 하드웨어 프로필 작업을 참조하십시오.
- KServe의 vLLM Cryostat AI Accelerator ServingRuntime
x86에서 IBM Cryostatre AI Accelerators에 대한 지원은 현재 Red Hat OpenShift AI 3.0에서 기술 프리뷰 기능으로 제공됩니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원되지 않으며 기능적으로 완전하지 않을 수 있습니다. Red Hat은 프로덕션 환경에서 사용하는 것을 권장하지 않습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.
Red Hat 기술 프리뷰 기능의 지원 범위에 대한 자세한 내용은 기술 프리뷰 기능 지원 범위를 참조하십시오.
x86에서 KServe 런타임용 vLLM>-< Serving ServingRuntime 을 사용하려면 Cryostat Operator를 설치하고 하드웨어 프로필을 구성했습니다. 자세한 내용은 operator 이미지 및 하드웨어 프로필 작업을 참조하십시오.
- vLLM Spyre s390x ServingRuntime for KServe
- IBM Z에서 KServe 런타임에 vLLM Cryostatre s390x ServingRuntime 을 사용하려면 Cryostat Operator를 설치하고 하드웨어 프로필을 구성했습니다. 자세한 내용은 operator 이미지 및 하드웨어 프로필 작업을 참조하십시오.
프로세스
- 왼쪽 메뉴에서 프로젝트를 클릭합니다.
모델을 배포할 프로젝트의 이름을 클릭합니다.
프로젝트 세부 정보 페이지가 열립니다.
- Deployments 탭을 클릭합니다.
배포 모델 버튼을 클릭합니다.
모델 배포 마법사가 열립니다.
모델 세부 정보 섹션에서 모델에 대한 정보를 제공합니다.
모델 위치 목록에서 모델이 저장된 위치를 지정하고 연결 세부 정보 필드를 완료합니다.From the Model location list, specify where your model is stored and complete the connection detail fields.
참고- OCI 호환 레지스트리,S3 호환 오브젝트 스토리지 및 URI 옵션은 사전 설치된 연결 유형입니다. OpenShift AI 관리자가 이를 추가한 경우 추가 옵션을 사용할 수 있습니다.
- 모델 파일을 PVC(영구 볼륨 클레임)에 업로드하고 PVC가 워크벤치에 연결된 경우 모델 위치 목록에서 클러스터 스토리지 옵션을 사용할 수 있게 됩니다. PVC를 선택하고 모델 파일의 경로를 지정하려면 이 옵션을 사용합니다.
- 모델 유형 목록에서 배포, 사전 또는Generative AI 모델 유형을 선택합니다.
- 다음을 클릭합니다.
모델 배포 섹션에서 배포를 구성합니다.
- 모델 배포 이름 필드에 모델 배포에 대한 고유 이름을 입력합니다.
- 설명 필드에 배포에 대한 설명을 입력합니다.
- 하드웨어 프로필 목록에서 하드웨어 프로필을 선택합니다.
- 선택 사항: 기본 리소스 할당을 수정하려면 리소스 요청 및 제한 사용자 지정을 클릭하고 CPU 및 메모리 요청 및 제한에 대한 새 값을 입력합니다.
Serving 런타임 필드에서 활성화된 런타임을 선택합니다.
참고프로젝트 범위 런타임이 있는 경우 Serving 런타임 목록에는 글로벌 런타임과 프로젝트 범위 런타임을 구분하는 하위 제목이 포함됩니다.
- 선택 사항: 예측 모델 유형을 선택한 경우 모델 프레임워크(이름 - 버전) 목록에서 프레임워크 를 선택합니다. 이 필드는Generative AI 모델에 대해 숨겨집니다.
- 배포할 모델 서버 복제본 수에서 값을 지정합니다.In the Number of model server replicas to deploy field, specify a value.
- 다음을 클릭합니다.
고급 설정 섹션에서 고급 옵션을 구성합니다.
선택 사항: (Generative AI 모델만 해당) 모델의 엔드포인트를 AI 자산 엔드포인트 페이지에 추가하려면 Add as AI asset endpoint 확인란을 선택합니다.
사용 사례 필드에 채팅, 멀티모달 또는 자연 언어 처리와 같이 모델이 수행하는 작업 유형을 입력합니다.
참고GenAI 플레이네시크에서 모델을 테스트하려면 AI 자산 끝점으로 모델을 추가해야 합니다.
- 선택 사항: 외부 경로를 통해 모델 배포를 사용할 수 있도록 하려면 모델 액세스 확인란을 선택합니다.
- 선택 사항: 배포된 모델에 대한 유추 요청에 대한 토큰 인증이 필요한 경우 토큰 인증 필요 를 선택합니다.
- 서비스 계정 이름 필드에 토큰이 생성될 서비스 계정 이름을 입력합니다.
- 추가 서비스 계정을 추가하려면 서비스 계정 추가를 클릭하고 다른 서비스 계정 이름을 입력합니다.
선택 사항: 구성 매개변수 섹션에서 다음을 수행합니다.
- Add custom runtime arguments 를 선택한 다음 텍스트 필드에 인수를 입력합니다.
- 사용자 지정 런타임 환경 변수 추가 확인란을 선택한 다음 변수 추가 를 클릭하여 텍스트 필드에 사용자 지정 변수를 입력합니다.
- Deploy 를 클릭합니다.
검증
- 배포된 모델이 프로젝트의 Deployments (배포) 탭과 Status (상태) 열에 확인 표시를 사용하여 대시보드의 Deployments (배포) 페이지에 표시되는지 확인합니다.