2.4. llm-d로 분산 유추를 사용하여 모델 배포

llm-d를 사용한 분산 추론은 대규모로 대용량 언어 모델(LLM)을 제공하기 위해 설계된 Kubernetes 네이티브 오픈 소스 프레임워크입니다. Distributed Inference를llm-d와 함께 사용하면 다양한 하드웨어 가속기에서 고성능 및 비용 효율성에 중점을 두고 유전 AI 배포를 단순화할 수 있습니다.

llm-d를 사용한 분산 유추의 주요 기능은 다음과 같습니다.

prefix-cache 인식 라우팅 및 거부 서비스와 같은 최적화를 사용하여 대규모 모델을 효율적으로 처리합니다.
Envoy 프록시와 같은 특수 구성 요소 및 vLLM 및 NVIDIA Inference Transfer Library (NIXL)와 같은 고성능 라이브러리를 활용하는 표준 Kubernetes 환경에 통합됩니다.
테스트된 레시피와 잘 알려진 사전 설정은 규모에 따른 추론 배포의 복잡성을 줄여 사용자가 인프라를 관리하는 대신 애플리케이션 구축에 집중할 수 있도록 합니다.

Red Hat OpenShift AI에서 llm-d와 함께 분산 유추를 사용하여 모델을 제공하는 것은 다음 단계로 구성됩니다.

OpenShift AI 설치.
단일 모델 제공 플랫폼 활성화.
Kubernetes 클러스터에서 llm-d를 사용하여 분산 유추 활성화.
CryostatInferenceService CR(사용자 정의 리소스) 생성.
모델 배포.

다음 절차에서는 Cryostat InferenceService 리소스에 대한 CR(사용자 정의 리소스)을 생성하는 방법을 설명합니다. 기본 InferenceService 를 Cryostat InferenceService 로 바꿉니다.

사전 요구 사항

단일 모델 서비스 플랫폼을 활성화했습니다.
버전 4.19.9 이상을 실행하는 OpenShift 클러스터에 액세스할 수 있습니다.
OpenShift Service Mesh v2가 클러스터에 설치되지 않았습니다.
클러스터 관리자가 OpenShift Container Platform Networking을 사용하는 게이트웨이 API에 설명된 대로 openshift-ingress 네임스페이스에 openshift-ai-inference 라는 Gateway 와 Gateway를 생성했습니다.
중요
게이트웨이 API 배포 토폴로지 를 검토합니다. 신뢰할 수 있는 네임스페이스에서 공유 게이트웨이만 사용합니다.
클러스터 관리자가 OpenShift에 LeaderWorkerSet Operator를 설치했습니다. 자세한 내용은 Leader Worker Set Operator 설명서를 참조하십시오.
베어 메탈 클러스터에서 OpenShift를 실행하는 경우: 클러스터 관리자가 LoadBalancer 유형으로 openshift-ai-inference Gateway 서비스의 외부 IP 주소를 프로비저닝하도록 클러스터 관리자가 MetalLB Operator를 설정했습니다. 자세한 내용은 MetalLB를 사용한 로드 밸런싱을 참조하십시오. LoadBalancer가 다음과 같이 구성되었는지 확인합니다.
- 표준 Kubernetes 서비스 매니페스트가 있습니다.
- spec 섹션에 type:LoadBalancer 가 있습니다.

프로세스

OpenShift 콘솔에 개발자로 로그인합니다.

다음 정보를 사용하여 CryostatInferenceService CR을 생성합니다.

apiVersion: serving.kserve.io/v1alpha1
kind: LLMInferenceService
metadata:
  name: sample-llm-inference-service
spec:
  replicas: 2
  model:
    uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
    name: RedHatAI/Qwen3-8B-FP8-dynamic
  router:
    route: {}
    gateway: {}
    scheduler: {}
  template:
    containers:
    - name: main
      resources:
        limits:
          cpu: '4'
          memory: 32Gi
          nvidia.com/gpu: "1"
        requests:
          cpu: '2'
          memory: 16Gi
          nvidia.com/gpu: "1"

apiVersion: serving.kserve.io/v1alpha1
kind: LLMInferenceService
metadata:
  name: sample-llm-inference-service
spec:
  replicas: 2
  model:
    uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
    name: RedHatAI/Qwen3-8B-FP8-dynamic
  router:
    route: {}
    gateway: {}
    scheduler: {}
  template:
    containers:
    - name: main
      resources:
        limits:
          cpu: '4'
          memory: 32Gi
          nvidia.com/gpu: "1"
        requests:
          cpu: '2'
          memory: 16Gi
          nvidia.com/gpu: "1"

Copy to Clipboard

Toggle word wrap

유추 서비스의 spec 섹션에서 다음 매개변수를 사용자 지정합니다.

replicas - 복제본 수를 지정합니다.
모델 - 모델이 저장되는 방법(uri)과 채팅 완료 요청(이름)에 사용할 모델 이름을 기반으로 모델에 URI를 제공합니다.
- S3 bucket: s3://<bucket-name>/<object-key>
- PVC(영구 볼륨 클레임): pvc://<claim-name>/<pvc-path>
- OCI 컨테이너 이미지: oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest>
- HuggingFace: hf://<model>/<optional-hash>
라우터 - HTTPRoute 및 Gateway를 제공하거나 비워 자동으로 만듭니다.

파일을 저장합니다.

2.4.1. llm-d를 사용한 분산 유추의 예
링크 복사

이러한 예제에서는 일반적인 시나리오에서 llm-d와 함께 분산 유추를 사용하는 방법을 보여줍니다.

2.4.1.1. 단일 노드 GPU 배포
링크 복사

7billion-parameter 모델과 같은 소규모 모델의 개발, 테스트 또는 프로덕션 배포에는 단일 GPU-per-replica 배포 패턴을 사용합니다.

단일 노드 GPU 배포를 사용하는 예제는 Single-Node GPU 배포 예를 참조하십시오.

2.4.1.2. 다중 노드 배포
링크 복사

다중 노드 배포를 사용하는 예제는 DeepSeek-R1 Multi-Node Deployment Examples 를 참조하십시오.

2.4.1.3. KV 캐시 라우팅을 사용하는 지능형 추론 스케줄러
링크 복사

유추 끝점에서 키-값(KV) 캐시 블록을 추적하고 캐시 적중률이 가장 높은 끝점으로 요청을 라우팅하도록 스케줄러를 구성할 수 있습니다. 이 구성을 통해 처리량을 개선하고 캐시 재사용을 극대화하여 대기 시간을 줄일 수 있습니다.

예를 들어 Precise Prefix KV Cache Routing 을 참조하십시오.

2.4. llm-d로 분산 유추를 사용하여 모델 배포

2.4.1. llm-d를 사용한 분산 유추의 예
링크 복사

2.4.1.1. 단일 노드 GPU 배포
링크 복사

2.4.1.2. 다중 노드 배포
링크 복사

2.4.1.3. KV 캐시 라우팅을 사용하는 지능형 추론 스케줄러
링크 복사

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 소개

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.4. llm-d로 분산 유추를 사용하여 모델 배포

2.4.1. llm-d를 사용한 분산 유추의 예링크 복사링크가 클립보드에 복사되었습니다!

2.4.1.1. 단일 노드 GPU 배포링크 복사링크가 클립보드에 복사되었습니다!

2.4.1.2. 다중 노드 배포링크 복사링크가 클립보드에 복사되었습니다!

2.4.1.3. KV 캐시 라우팅을 사용하는 지능형 추론 스케줄러링크 복사링크가 클립보드에 복사되었습니다!

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat 소개

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.4.1. llm-d를 사용한 분산 유추의 예
링크 복사

2.4.1.1. 단일 노드 GPU 배포
링크 복사

2.4.1.2. 다중 노드 배포
링크 복사

2.4.1.3. KV 캐시 라우팅을 사용하는 지능형 추론 스케줄러
링크 복사