2.4. llm-d로 분산 유추를 사용하여 모델 배포
llm-d를 사용한 분산 추론은 대규모로 대용량 언어 모델(LLM)을 제공하기 위해 설계된 Kubernetes 네이티브 오픈 소스 프레임워크입니다. Distributed Inference를llm-d와 함께 사용하면 다양한 하드웨어 가속기에서 고성능 및 비용 효율성에 중점을 두고 유전 AI 배포를 단순화할 수 있습니다.
llm-d를 사용한 분산 유추의 주요 기능은 다음과 같습니다.
- prefix-cache 인식 라우팅 및 거부 서비스와 같은 최적화를 사용하여 대규모 모델을 효율적으로 처리합니다.
- Envoy 프록시와 같은 특수 구성 요소 및 vLLM 및 NVIDIA Inference Transfer Library (NIXL)와 같은 고성능 라이브러리를 활용하는 표준 Kubernetes 환경에 통합됩니다.
- 테스트된 레시피와 잘 알려진 사전 설정은 규모에 따른 추론 배포의 복잡성을 줄여 사용자가 인프라를 관리하는 대신 애플리케이션 구축에 집중할 수 있도록 합니다.
Red Hat OpenShift AI에서 llm-d와 함께 분산 유추를 사용하여 모델을 제공하는 것은 다음 단계로 구성됩니다.
- OpenShift AI 설치.
- 단일 모델 제공 플랫폼 활성화.
- Kubernetes 클러스터에서 llm-d를 사용하여 분산 유추 활성화.
- CryostatInferenceService CR(사용자 정의 리소스) 생성.
- 모델 배포.
다음 절차에서는 Cryostat InferenceService 리소스에 대한 CR(사용자 정의 리소스)을 생성하는 방법을 설명합니다. 기본 InferenceService 를 Cryostat InferenceService 로 바꿉니다.
사전 요구 사항
- 단일 모델 서비스 플랫폼을 활성화했습니다.
- 버전 4.19.9 이상을 실행하는 OpenShift 클러스터에 액세스할 수 있습니다.
- OpenShift Service Mesh v2가 클러스터에 설치되지 않았습니다.
클러스터 관리자가 OpenShift Container Platform Networking을 사용하는 게이트웨이 API에 설명된 대로
openshift-ingress네임스페이스에openshift-ai-inference라는Gateway와 Gateway를 생성했습니다.중요게이트웨이 API 배포 토폴로지 를 검토합니다. 신뢰할 수 있는 네임스페이스에서 공유 게이트웨이만 사용합니다.
-
클러스터 관리자가 OpenShift에
LeaderWorkerSetOperator를 설치했습니다. 자세한 내용은 Leader Worker Set Operator 설명서를 참조하십시오. 베어 메탈 클러스터에서 OpenShift를 실행하는 경우: 클러스터 관리자가
LoadBalancer유형으로openshift-ai-inferenceGateway 서비스의 외부 IP 주소를 프로비저닝하도록 클러스터 관리자가 MetalLB Operator를 설정했습니다. 자세한 내용은 MetalLB를 사용한 로드 밸런싱을 참조하십시오. LoadBalancer가 다음과 같이 구성되었는지 확인합니다.- 표준 Kubernetes 서비스 매니페스트가 있습니다.
-
spec섹션에type:LoadBalancer가 있습니다.
프로세스
- OpenShift 콘솔에 개발자로 로그인합니다.
다음 정보를
사용하여 CryostatInferenceServiceCR을 생성합니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow 유추 서비스의
spec섹션에서 다음 매개변수를 사용자 지정합니다.-
replicas- 복제본 수를 지정합니다. 모델 - 모델이저장되는 방법(uri)과 채팅 완료 요청(이름)에 사용할 모델 이름을 기반으로 모델에 URI를 제공합니다.-
S3 bucket:
s3://<bucket-name>/<object-key> -
PVC(영구 볼륨 클레임):
pvc://<claim-name>/<pvc-path> -
OCI 컨테이너 이미지:
oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest> -
HuggingFace:
hf://<model>/<optional-hash>
-
S3 bucket:
-
라우터- HTTPRoute 및 Gateway를 제공하거나 비워 자동으로 만듭니다.
-
- 파일을 저장합니다.
2.4.1. llm-d를 사용한 분산 유추의 예 링크 복사링크가 클립보드에 복사되었습니다!
이러한 예제에서는 일반적인 시나리오에서 llm-d와 함께 분산 유추를 사용하는 방법을 보여줍니다.
2.4.1.1. 단일 노드 GPU 배포 링크 복사링크가 클립보드에 복사되었습니다!
7billion-parameter 모델과 같은 소규모 모델의 개발, 테스트 또는 프로덕션 배포에는 단일 GPU-per-replica 배포 패턴을 사용합니다.
단일 노드 GPU 배포를 사용하는 예제는 Single-Node GPU 배포 예를 참조하십시오.
2.4.1.2. 다중 노드 배포 링크 복사링크가 클립보드에 복사되었습니다!
다중 노드 배포를 사용하는 예제는 DeepSeek-R1 Multi-Node Deployment Examples 를 참조하십시오.
2.4.1.3. KV 캐시 라우팅을 사용하는 지능형 추론 스케줄러 링크 복사링크가 클립보드에 복사되었습니다!
유추 끝점에서 키-값(KV) 캐시 블록을 추적하고 캐시 적중률이 가장 높은 끝점으로 요청을 라우팅하도록 스케줄러를 구성할 수 있습니다. 이 구성을 통해 처리량을 개선하고 캐시 재사용을 극대화하여 대기 시간을 줄일 수 있습니다.
예를 들어 Precise Prefix KV Cache Routing 을 참조하십시오.