2.4. Distributed Inference with llm-d を使用したモデルのデプロイ


重要

Distributed Inference with llm-d は現在、Red Hat OpenShift AI 2.25 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。

Distributed Inference with llm-d は、大規模言語モデル (LLM) を大規模に提供するために設計された、Kubernetes ネイティブのオープンソースフレームワークです。Distributed Inference with llm-d を使用すると、さまざまなハードウェアアクセラレーター全体での高パフォーマンスとコスト効率に重点を置き、生成 AI のデプロイメントを簡素化できます。

Distributed Inference with llm-d の主な機能は次のとおりです。

  • 接頭辞キャッシュ対応ルーティングや分散型サービングなどの最適化を使用して、大規模なモデルを効率的に処理します。
  • 標準の Kubernetes 環境に統合され、ネットワークとルーティングを処理する Envoy プロキシーなどの特殊なコンポーネントや、vLLM や NVIDIA Inference Transfer Library (NIXL) などの高性能ライブラリーを活用します。
  • テスト済みのレシピと、よく知られたプリセットは、推論を大規模にデプロイする際の複雑さを低減します。そのため、ユーザーはインフラストラクチャーの管理よりも、アプリケーションの構築に集中できます。

Red Hat OpenShift AI 上で Distributed Inference with llm-d を使用してモデルを提供するには、以下のステップ手順を実行します。

  1. OpenShift AI をインストールします。

    注記

    KServe Serverless は、Distributed Inference with llm-d に使用される Gateway API と競合するため、同じクラスターでは KServe Serverless はサポートされません。代わりに、KServe RawDeployment を使用してください。

  2. シングルモデルサービングプラットフォームを有効化します。
  3. Kubernetes クラスター上で Distributed Inference with llm-d を有効化します。
  4. LLMInferenceService カスタムリソース (CR) を作成します。
  5. モデルをデプロイします。

この手順では、LLMInferenceService リソースのカスタムリソース (CR) を作成する方法について説明します。デフォルトの InferenceService は、LLMInferenceService に置き換えます。

前提条件

  • シングルモデルサービングプラットフォームを有効にした。
  • バージョン 4.19.9 以降を実行している OpenShift クラスターにアクセスできる。
  • OpenShift Service Mesh v2 がクラスターにインストールされていない。
  • OpenShift Container Platform Networking での Gateway API で説明されているように、openshift-ingress namespace に openshift-ai-inference という名前の GatewayClassGateway している。
  • OpenShift に LeaderWorkerSet Operator がインストールされている。詳細は、OpenShift のドキュメントを参照してください。

手順

  1. OpenShift コンソールにクラスター管理者としてログインします。
  2. 次の例に示すように、Data Science Cluster Initialization (DSCI) を作成し、serviceMesh.managementStateremoved に設定します。

    serviceMesh:
      ...
      managementState: Removed
    Copy to Clipboard Toggle word wrap
  3. kserveserving に次の情報を設定した Data Science Cluster (DSC) を作成します。

    kserve:
      defaultDeploymentMode: RawDeployment
      managementState: Managed
      ...
      serving:
        ...
        managementState: Removed
        ...
    Copy to Clipboard Toggle word wrap
  4. 次の情報を使用して LLMInferenceService CR を作成します。

    apiVersion: serving.kserve.io/v1alpha1
    kind: LLMInferenceService
    metadata:
      name: sample-llm-inference-service
    spec:
      replicas: 2
      model:
        uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
        name: RedHatAI/Qwen3-8B-FP8-dynamic
      router:
        route: {}
        gateway: {}
        scheduler: {}
        template:
          containers:
          - name: main
            resources:
              limits:
                cpu: '4'
                memory: 32Gi
                nvidia.com/gpu: "1"
              requests:
                cpu: '2'
                memory: 16Gi
                nvidia.com/gpu: "1"
    Copy to Clipboard Toggle word wrap

    推論サービスの spec セクションで次のパラメーターをカスタマイズします。

    • replicas - レプリカの数を指定します。
    • model - モデルの保存方法に基づくモデルへの URI (uri) と、チャット補完リクエストで使用するモデル名 (name) を指定します。

      • S3 バケット: s3://<bucket-name>/<object-key>
      • 永続ボリューム要求 (PVC): pvc://<claim-name>/<pvc-path>
      • OCI コンテナーイメージ: oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest>
      • HuggingFace: hf://<model>/<optional-hash>
    • router - HTTPRoute とゲートウェイを提供するか、空白のままにして自動的に作成します。
  5. ファイルを保存します。

2.4.1. Distributed Inference with llm-d の使用例

これらの例は、一般的なシナリオで Distributed Inference with llm-d を使用する方法を示しています。

重要

Distributed Inference with llm-d は現在、Red Hat OpenShift AI 2.25 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。

2.4.1.1. シングルノードの GPU デプロイメント

70 億パラメーターモデルのような比較的小さなモデルの開発、テスト、または実稼働環境へのデプロイメントには、レプリカごとに単一の GPU を使用するデプロイメントパターンを使用します。

シングルノード GPU デプロイメントには、次の例を使用できます。

2.4.1.2. マルチノードデプロイメント

マルチノードデプロイメントでは次の例を使用できます。

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー

スケジューラーを設定して、推論エンドポイント全体でキーバリュー (KV) キャッシュブロックを追跡し、キャッシュヒット率が最も高いエンドポイントにリクエストをルーティングできます。この設定では、キャッシュの再利用を最大化することでスループットが向上し、レイテンシーが短縮されます。

例については、Precise Prefix KV Cache Routing を参照してください。

トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat