2.4. llm-d로 분산 유추를 사용하여 모델 배포


llm-d를 사용한 분산 추론은 대규모로 대용량 언어 모델(LLM)을 제공하기 위해 설계된 Kubernetes 네이티브 오픈 소스 프레임워크입니다. Distributed Inference를llm-d와 함께 사용하면 다양한 하드웨어 가속기에서 고성능 및 비용 효율성에 중점을 두고 유전 AI 배포를 단순화할 수 있습니다.

llm-d를 사용한 분산 유추의 주요 기능은 다음과 같습니다.

  • prefix-cache 인식 라우팅 및 거부 서비스와 같은 최적화를 사용하여 대규모 모델을 효율적으로 처리합니다.
  • Envoy 프록시와 같은 특수 구성 요소 및 vLLM 및 NVIDIA Inference Transfer Library (NIXL)와 같은 고성능 라이브러리를 활용하는 표준 Kubernetes 환경에 통합됩니다.
  • 테스트된 레시피와 잘 알려진 사전 설정은 규모에 따른 추론 배포의 복잡성을 줄여 사용자가 인프라를 관리하는 대신 애플리케이션 구축에 집중할 수 있도록 합니다.

Red Hat OpenShift AI에서 llm-d와 함께 분산 유추를 사용하여 모델을 제공하는 것은 다음 단계로 구성됩니다.

  1. OpenShift AI 설치.
  2. 단일 모델 제공 플랫폼 활성화.
  3. Kubernetes 클러스터에서 llm-d를 사용하여 분산 유추 활성화.
  4. CryostatInferenceService CR(사용자 정의 리소스) 생성.
  5. 모델 배포.

다음 절차에서는 Cryostat InferenceService 리소스에 대한 CR(사용자 정의 리소스)을 생성하는 방법을 설명합니다. 기본 InferenceService 를 Cryostat InferenceService 로 바꿉니다.

사전 요구 사항

프로세스

  1. OpenShift 콘솔에 개발자로 로그인합니다.
  2. 다음 정보를 사용하여 CryostatInferenceService CR을 생성합니다.

    apiVersion: serving.kserve.io/v1alpha1
    kind: LLMInferenceService
    metadata:
      name: sample-llm-inference-service
    spec:
      replicas: 2
      model:
        uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
        name: RedHatAI/Qwen3-8B-FP8-dynamic
      router:
        route: {}
        gateway: {}
        scheduler: {}
      template:
        containers:
        - name: main
          resources:
            limits:
              cpu: '4'
              memory: 32Gi
              nvidia.com/gpu: "1"
            requests:
              cpu: '2'
              memory: 16Gi
              nvidia.com/gpu: "1"
    Copy to Clipboard Toggle word wrap

    유추 서비스의 spec 섹션에서 다음 매개변수를 사용자 지정합니다.

    • replicas - 복제본 수를 지정합니다.
    • 모델 - 모델이 저장되는 방법(uri)과 채팅 완료 요청(이름)에 사용할 모델 이름을 기반으로 모델에 URI를 제공합니다.

      • S3 bucket: s3://<bucket-name>/<object-key>
      • PVC(영구 볼륨 클레임): pvc://<claim-name>/<pvc-path>
      • OCI 컨테이너 이미지: oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest>
      • HuggingFace: hf://<model>/<optional-hash>
    • 라우터 - HTTPRoute 및 Gateway를 제공하거나 비워 자동으로 만듭니다.
  3. 파일을 저장합니다.

2.4.1. llm-d를 사용한 분산 유추의 예

이러한 예제에서는 일반적인 시나리오에서 llm-d와 함께 분산 유추를 사용하는 방법을 보여줍니다.

2.4.1.1. 단일 노드 GPU 배포

7billion-parameter 모델과 같은 소규모 모델의 개발, 테스트 또는 프로덕션 배포에는 단일 GPU-per-replica 배포 패턴을 사용합니다.

단일 노드 GPU 배포를 사용하는 예제는 Single-Node GPU 배포 예를 참조하십시오.

2.4.1.2. 다중 노드 배포

다중 노드 배포를 사용하는 예제는 DeepSeek-R1 Multi-Node Deployment Examples 를 참조하십시오.

2.4.1.3. KV 캐시 라우팅을 사용하는 지능형 추론 스케줄러

유추 끝점에서 키-값(KV) 캐시 블록을 추적하고 캐시 적중률이 가장 높은 끝점으로 요청을 라우팅하도록 스케줄러를 구성할 수 있습니다. 이 구성을 통해 처리량을 개선하고 캐시 재사용을 극대화하여 대기 시간을 줄일 수 있습니다.

예를 들어 Precise Prefix KV Cache Routing 을 참조하십시오.

맨 위로 이동
Red Hat logoGithubredditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다. 최신 업데이트를 확인하세요.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

Theme

© 2025 Red Hat