2.4. Distributed Inference with llm-d を使用したモデルのデプロイ
Distributed Inference with llm-d は現在、Red Hat OpenShift AI 2.25 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
Distributed Inference with llm-d は、大規模言語モデル (LLM) を大規模に提供するために設計された、Kubernetes ネイティブのオープンソースフレームワークです。Distributed Inference with llm-d を使用すると、さまざまなハードウェアアクセラレーター全体での高パフォーマンスとコスト効率に重点を置き、生成 AI のデプロイメントを簡素化できます。
Distributed Inference with llm-d の主な機能は次のとおりです。
- 接頭辞キャッシュ対応ルーティングや分散型サービングなどの最適化を使用して、大規模なモデルを効率的に処理します。
- 標準の Kubernetes 環境に統合され、ネットワークとルーティングを処理する Envoy プロキシーなどの特殊なコンポーネントや、vLLM や NVIDIA Inference Transfer Library (NIXL) などの高性能ライブラリーを活用します。
- テスト済みのレシピと、よく知られたプリセットは、推論を大規模にデプロイする際の複雑さを低減します。そのため、ユーザーはインフラストラクチャーの管理よりも、アプリケーションの構築に集中できます。
Red Hat OpenShift AI 上で Distributed Inference with llm-d を使用してモデルを提供するには、以下のステップ手順を実行します。
OpenShift AI をインストールします。
注記KServe Serverless は、Distributed Inference with llm-d に使用される Gateway API と競合するため、同じクラスターでは KServe Serverless はサポートされません。代わりに、KServe RawDeployment を使用してください。
- シングルモデルサービングプラットフォームを有効化します。
- Kubernetes クラスター上で Distributed Inference with llm-d を有効化します。
- LLMInferenceService カスタムリソース (CR) を作成します。
- モデルをデプロイします。
この手順では、LLMInferenceService リソースのカスタムリソース (CR) を作成する方法について説明します。デフォルトの InferenceService は、LLMInferenceService に置き換えます。
前提条件
- シングルモデルサービングプラットフォームを有効にした。
- バージョン 4.19.9 以降を実行している OpenShift クラスターにアクセスできる。
- OpenShift Service Mesh v2 がクラスターにインストールされていない。
-
OpenShift Container Platform Networking での Gateway API で説明されているように、
openshift-ingressnamespace にopenshift-ai-inferenceという名前のGatewayClassとGatewayしている。 -
OpenShift に
LeaderWorkerSetOperator がインストールされている。詳細は、OpenShift のドキュメントを参照してください。
手順
- OpenShift コンソールにクラスター管理者としてログインします。
次の例に示すように、Data Science Cluster Initialization (DSCI) を作成し、
serviceMesh.managementStateをremovedに設定します。serviceMesh: ... managementState: Removed
serviceMesh: ... managementState: RemovedCopy to Clipboard Copied! Toggle word wrap Toggle overflow kserveとservingに次の情報を設定した Data Science Cluster (DSC) を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 次の情報を使用して
LLMInferenceServiceCR を作成します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 推論サービスの
specセクションで次のパラメーターをカスタマイズします。-
replicas- レプリカの数を指定します。 model- モデルの保存方法に基づくモデルへの URI (uri) と、チャット補完リクエストで使用するモデル名 (name) を指定します。-
S3 バケット:
s3://<bucket-name>/<object-key> -
永続ボリューム要求 (PVC):
pvc://<claim-name>/<pvc-path> -
OCI コンテナーイメージ:
oci://<registry_host>/<org_or_username>/<repository_name><tag_or_digest> -
HuggingFace:
hf://<model>/<optional-hash>
-
S3 バケット:
-
router- HTTPRoute とゲートウェイを提供するか、空白のままにして自動的に作成します。
-
- ファイルを保存します。
2.4.1. Distributed Inference with llm-d の使用例 リンクのコピーリンクがクリップボードにコピーされました!
これらの例は、一般的なシナリオで Distributed Inference with llm-d を使用する方法を示しています。
Distributed Inference with llm-d は現在、Red Hat OpenShift AI 2.25 でテクノロジープレビュー機能として利用できます。テクノロジープレビュー機能は、Red Hat 製品のサービスレベルアグリーメント (SLA) の対象外であり、機能的に完全ではないことがあります。Red Hat では、実稼働環境での使用を推奨していません。テクノロジープレビュー機能は、最新の製品機能をいち早く提供して、開発段階で機能のテストを行い、フィードバックを提供していただくことを目的としています。
Red Hat のテクノロジープレビュー機能のサポート範囲に関する詳細は、テクノロジープレビュー機能のサポート範囲 を参照してください。
2.4.1.1. シングルノードの GPU デプロイメント リンクのコピーリンクがクリップボードにコピーされました!
70 億パラメーターモデルのような比較的小さなモデルの開発、テスト、または実稼働環境へのデプロイメントには、レプリカごとに単一の GPU を使用するデプロイメントパターンを使用します。
シングルノード GPU デプロイメントには、次の例を使用できます。
2.4.1.2. マルチノードデプロイメント リンクのコピーリンクがクリップボードにコピーされました!
マルチノードデプロイメントでは次の例を使用できます。
2.4.1.3. KV キャッシュルーティングを備えたインテリジェントな推論スケジューラー リンクのコピーリンクがクリップボードにコピーされました!
スケジューラーを設定して、推論エンドポイント全体でキーバリュー (KV) キャッシュブロックを追跡し、キャッシュヒット率が最も高いエンドポイントにリクエストをルーティングできます。この設定では、キャッシュの再利用を最大化することでスループットが向上し、レイテンシーが短縮されます。
例については、Precise Prefix KV Cache Routing を参照してください。