2.4. Distributed Inference with llm-d を使用したモデルのデプロイ

Distributed Inference with llm-d は、大規模言語モデル (LLM) を大規模に提供するために設計された、Kubernetes ネイティブのオープンソースフレームワークです。Distributed Inference with llm-d を使用すると、さまざまなハードウェアアクセラレーター全体での高パフォーマンスとコスト効率に重点を置き、生成 AI のデプロイメントを簡素化できます。

Distributed Inference with llm-d の主な機能は次のとおりです。

接頭辞キャッシュ対応ルーティングや分散型サービングなどの最適化を使用して、大規模なモデルを効率的に処理します。
標準の Kubernetes 環境に統合され、ネットワークとルーティングを処理する Envoy プロキシーなどの特殊なコンポーネントや、vLLM や NVIDIA Inference Transfer Library (NIXL) などの高性能ライブラリーを活用します。
テスト済みのレシピと、よく知られたプリセットは、推論を大規模にデプロイする際の複雑さを低減します。そのため、ユーザーはインフラストラクチャーの管理よりも、アプリケーションの構築に集中できます。

Red Hat OpenShift AI 上で Distributed Inference with llm-d を使用してモデルを提供するには、以下のステップ手順を実行します。

OpenShift AI をインストールします。
シングルモデルサービングプラットフォームを有効化します。
Kubernetes クラスター上で Distributed Inference with llm-d を有効化します。
LLMInferenceService カスタムリソース (CR) を作成します。
モデルをデプロイします。

この手順では、LLMInferenceService リソースのカスタムリソース (CR) を作成する方法について説明します。デフォルトの InferenceService は、LLMInferenceService に置き換えます。

前提条件

シングルモデルサービングプラットフォームを有効にした。
バージョン 4.19.9 以降を実行している OpenShift クラスターにアクセスできる。
OpenShift Service Mesh v2 がクラスターにインストールされていない。
OpenShift Container Platform Networking での Gateway API で説明されているように、クラスター管理者が、openshift-ingress namespace に openshift-ai-inference という名前の GatewayClass と Gateway を作成している。
重要
Gateway API デプロイメントトポロジーを確認します。共有 Gateway は、信頼できる namespace 間でのみ使用します。
クラスター管理者が OpenShift に LeaderWorkerSet Operator をインストールしている。詳細は、Leader Worker Set Operator のドキュメントを参照してください。
ベアメタルクラスターで OpenShift を実行している場合: クラスター管が、LoadBalancer タイプの openshift-ai-inference Gateway サービスに外部 IP アドレスをプロビジョニングするように MetalLB Operator を設定している。詳細は、MetalLB による負荷分散を参照してください。LoadBalancer が次のように設定されていることを確認します。
- 標準の Kubernetes Service マニフェストがある。
- spec セクションに type:LoadBalancer がある。

手順

開発者として OpenShift コンソールにログインします。

次の情報を使用して LLMInferenceService CR を作成します。

apiVersion: serving.kserve.io/v1alpha1
kind: LLMInferenceService
metadata:
  name: sample-llm-inference-service
spec:
  replicas: 2
  model:
    uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
    name: RedHatAI/Qwen3-8B-FP8-dynamic
  router:
    route: {}
    gateway: {}
    scheduler: {}
  template:
    containers:
    - name: main
      resources:
        limits:
          cpu: '4'
          memory: 32Gi
          nvidia.com/gpu: "1"
        requests:
          cpu: '2'
          memory: 16Gi
          nvidia.com/gpu: "1"

apiVersion: serving.kserve.io/v1alpha1
kind: LLMInferenceService
metadata:
  name: sample-llm-inference-service
spec:
  replicas: 2
  model:
    uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
    name: RedHatAI/Qwen3-8B-FP8-dynamic
  router:
    route: {}
    gateway: {}
    scheduler: {}
  template:
    containers:
    - name: main
      resources:
        limits:
          cpu: '4'
          memory: 32Gi
          nvidia.com/gpu: "1"
        requests:
          cpu: '2'
          memory: 16Gi
          nvidia.com/gpu: "1"

Copy to Clipboard

Toggle word wrap

推論サービスの spec セクションで次のパラメーターをカスタマイズします。

replicas - レプリカの数を指定します。
model - モデルの保存方法に基づくモデルへの URI (uri) と、チャット補完リクエストで使用するモデル名 (name) を指定します。
- S3 バケット: s3://<bucket-name>/<object-key>
- 永続ボリューム要求 (PVC): pvc://<claim-name>/<pvc-path>
- OCI コンテナーイメージ: oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest>
- HuggingFace: hf://<model>/<optional-hash>
router - HTTPRoute とゲートウェイを提供するか、空白のままにして自動的に作成します。

ファイルを保存します。

2.4.1. Distributed Inference with llm-d の使用例
リンクのコピー

これらの例は、一般的なシナリオで Distributed Inference with llm-d を使用する方法を示しています。

2.4.1.1. シングルノードの GPU デプロイメント
リンクのコピー

70 億パラメーターモデルのような比較的小さなモデルの開発、テスト、または実稼働環境へのデプロイメントには、レプリカごとに単一の GPU を使用するデプロイメントパターンを使用します。

シングルノード GPU デプロイメントの使用例については、Single-Node GPU Deployment Examples を参照してください。

2.4.1.2. マルチノードデプロイメント
リンクのコピー

マルチノードデプロイメントの使用例については、DeepSeek-R1 Multi-Node Deployment Examples を参照してください。

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー
リンクのコピー

スケジューラーを設定して、推論エンドポイント全体でキーバリュー (KV) キャッシュブロックを追跡し、キャッシュヒット率が最も高いエンドポイントにリクエストをルーティングできます。この設定では、キャッシュの再利用を最大化することでスループットが向上し、レイテンシーが短縮されます。

例については、Precise Prefix KV Cache Routing を参照してください。

2.4. Distributed Inference with llm-d を使用したモデルのデプロイ

2.4.1. Distributed Inference with llm-d の使用例
リンクのコピー

2.4.1.1. シングルノードの GPU デプロイメント
リンクのコピー

2.4.1.2. マルチノードデプロイメント
リンクのコピー

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.4. Distributed Inference with llm-d を使用したモデルのデプロイ

2.4.1. Distributed Inference with llm-d の使用例リンクのコピーリンクがクリップボードにコピーされました!

2.4.1.1. シングルノードの GPU デプロイメントリンクのコピーリンクがクリップボードにコピーされました!

2.4.1.2. マルチノードデプロイメントリンクのコピーリンクがクリップボードにコピーされました!

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラーリンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.4.1. Distributed Inference with llm-d の使用例
リンクのコピー

2.4.1.1. シングルノードの GPU デプロイメント
リンクのコピー

2.4.1.2. マルチノードデプロイメント
リンクのコピー

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー
リンクのコピー