2.4. Distributed Inference with llm-d を使用したモデルのデプロイ

重要

Distributed Inference with llm-d は現在、Red Hat OpenShift AI 2.25 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲を参照してください。

Distributed Inference with llm-d は、大規模言語モデル (LLM) を大規模に提供するために設計された、Kubernetes ネイティブのオープンソースフレームワークです。Distributed Inference with llm-d を使用すると、さまざまなハードウェアアクセラレーター全体での高パフォーマンスとコスト効率に重点を置き、生成 AI のデプロイメントを簡素化できます。

Distributed Inference with llm-d の主な機能は次のとおりです。

接頭辞キャッシュ対応ルーティングや分散型サービングなどの最適化を使用して、大規模なモデルを効率的に処理します。
標準の Kubernetes 環境に統合され、ネットワークとルーティングを処理する Envoy プロキシーなどの特殊なコンポーネントや、vLLM や NVIDIA Inference Transfer Library (NIXL) などの高性能ライブラリーを活用します。
テスト済みのレシピと、よく知られたプリセットは、推論を大規模にデプロイする際の複雑さを低減します。そのため、ユーザーはインフラストラクチャーの管理よりも、アプリケーションの構築に集中できます。

Red Hat OpenShift AI 上で Distributed Inference with llm-d を使用してモデルを提供するには、以下のステップ手順を実行します。

OpenShift AI をインストールします。
注記
KServe Serverless は、Distributed Inference with llm-d に使用される Gateway API と競合するため、同じクラスターでは KServe Serverless はサポートされません。代わりに、KServe RawDeployment を使用してください。
シングルモデルサービングプラットフォームを有効化します。
Kubernetes クラスター上で Distributed Inference with llm-d を有効化します。
LLMInferenceService カスタムリソース (CR) を作成します。
モデルをデプロイします。

この手順では、LLMInferenceService リソースのカスタムリソース (CR) を作成する方法について説明します。デフォルトの InferenceService は、LLMInferenceService に置き換えます。

前提条件

シングルモデルサービングプラットフォームを有効にした。
バージョン 4.19.9 以降を実行している OpenShift クラスターにアクセスできる。
OpenShift Service Mesh v2 がクラスターにインストールされていない。
OpenShift Container Platform Networking での Gateway API で説明されているように、openshift-ingress namespace に openshift-ai-inference という名前の GatewayClass と Gateway している。
OpenShift に LeaderWorkerSet Operator がインストールされている。詳細は、OpenShift のドキュメントを参照してください。

手順

OpenShift コンソールにクラスター管理者としてログインします。
次の例に示すように、Data Science Cluster Initialization (DSCI) を作成し、serviceMesh.managementState を removed に設定します。
```
serviceMesh:
  ...
  managementState: Removed
```
```
serviceMesh:
  ...
  managementState: Removed
```
Copy to Clipboard Toggle word wrap

kserve と serving に次の情報を設定した Data Science Cluster (DSC) を作成します。

kserve:
  defaultDeploymentMode: RawDeployment
  managementState: Managed
  ...
  serving:
    ...
    managementState: Removed
    ...

kserve:
  defaultDeploymentMode: RawDeployment
  managementState: Managed
  ...
  serving:
    ...
    managementState: Removed
    ...

Copy to Clipboard

Toggle word wrap

次の情報を使用して LLMInferenceService CR を作成します。

apiVersion: serving.kserve.io/v1alpha1
kind: LLMInferenceService
metadata:
  name: sample-llm-inference-service
spec:
  replicas: 2
  model:
    uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
    name: RedHatAI/Qwen3-8B-FP8-dynamic
  router:
    route: {}
    gateway: {}
    scheduler: {}
    template:
      containers:
      - name: main
        resources:
          limits:
            cpu: '4'
            memory: 32Gi
            nvidia.com/gpu: "1"
          requests:
            cpu: '2'
            memory: 16Gi
            nvidia.com/gpu: "1"

apiVersion: serving.kserve.io/v1alpha1
kind: LLMInferenceService
metadata:
  name: sample-llm-inference-service
spec:
  replicas: 2
  model:
    uri: hf://RedHatAI/Qwen3-8B-FP8-dynamic
    name: RedHatAI/Qwen3-8B-FP8-dynamic
  router:
    route: {}
    gateway: {}
    scheduler: {}
    template:
      containers:
      - name: main
        resources:
          limits:
            cpu: '4'
            memory: 32Gi
            nvidia.com/gpu: "1"
          requests:
            cpu: '2'
            memory: 16Gi
            nvidia.com/gpu: "1"

Copy to Clipboard

Toggle word wrap

推論サービスの spec セクションで次のパラメーターをカスタマイズします。

replicas - レプリカの数を指定します。
model - モデルの保存方法に基づくモデルへの URI (uri) と、チャット補完リクエストで使用するモデル名 (name) を指定します。
- S3 バケット: s3://<bucket-name>/<object-key>
- 永続ボリューム要求 (PVC): pvc://<claim-name>/<pvc-path>
- OCI コンテナーイメージ: oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest>
- HuggingFace: hf://<model>/<optional-hash>
router - HTTPRoute とゲートウェイを提供するか、空白のままにして自動的に作成します。

ファイルを保存します。

2.4.1. Distributed Inference with llm-d の使用例
リンクのコピー

これらの例は、一般的なシナリオで Distributed Inference with llm-d を使用する方法を示しています。

重要

Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲を参照してください。

2.4.1.1. シングルノードの GPU デプロイメント
リンクのコピー

70 億パラメーターモデルのような比較的小さなモデルの開発、テスト、または実稼働環境へのデプロイメントには、レプリカごとに単一の GPU を使用するデプロイメントパターンを使用します。

シングルノード GPU デプロイメントには、次の例を使用できます。

2.4.1.2. マルチノードデプロイメント
リンクのコピー

マルチノードデプロイメントでは次の例を使用できます。

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー
リンクのコピー

スケジューラーを設定して、推論エンドポイント全体でキーバリュー (KV) キャッシュブロックを追跡し、キャッシュヒット率が最も高いエンドポイントにリクエストをルーティングできます。この設定では、キャッシュの再利用を最大化することでスループットが向上し、レイテンシーが短縮されます。

例については、Precise Prefix KV Cache Routing を参照してください。

2.4. Distributed Inference with llm-d を使用したモデルのデプロイ

2.4.1. Distributed Inference with llm-d の使用例
リンクのコピー

2.4.1.1. シングルノードの GPU デプロイメント
リンクのコピー

2.4.1.2. マルチノードデプロイメント
リンクのコピー

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.4. Distributed Inference with llm-d を使用したモデルのデプロイ

2.4.1. Distributed Inference with llm-d の使用例リンクのコピーリンクがクリップボードにコピーされました!

2.4.1.1. シングルノードの GPU デプロイメントリンクのコピーリンクがクリップボードにコピーされました!

2.4.1.2. マルチノードデプロイメントリンクのコピーリンクがクリップボードにコピーされました!

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラーリンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

2.4.1. Distributed Inference with llm-d の使用例
リンクのコピー

2.4.1.1. シングルノードの GPU デプロイメント
リンクのコピー

2.4.1.2. マルチノードデプロイメント
リンクのコピー

2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー
リンクのコピー