1.6. MicroShift で AI モデルを提供する
ServingRuntime および InferenceService カスタムリソース (CR) を使用してモデルサービングランタイムを設定することにより、MicroShift の Red Hat OpenShift AI Self-Managed シングルモデルサービングプラットフォームでモデルを提供できます。
- MicroShift の AI モデル向けモデルサービングランタイム
- モデルサービングランタイムは、AI モデルをデプロイおよび管理するための環境であり、指定されたモデルサーバーとそれがサポートするモデルフレームワークとの統合を提供します。モデルサービングランタイムを作成するということは、デプロイメントに固有のその他の詳細な機能の中でも、AI モデルに適切なモデル形式を選択してクエリーを処理するオブジェクトを設定することを意味します。
ServingRuntimeカスタムリソース-
ServingRuntimeCR は、AI モデル形式を動的にロードおよびアンロードできる Pod のテンプレートを定義し、API を介してモデルをクエリーするためのサービスエンドポイントを公開する YAML ファイルです。各ServingRuntimeCR には、ランタイムのコンテナーイメージや、モデルサービングランタイムがサポートするモデル形式のリストなど、AI モデルの実行に必要な情報が含まれています。モデルサービングランタイムのその他の設定は、コンテナー仕様で定義された環境変数を使用して設定できます。 InferenceServiceカスタムリソース-
InferenceServiceCR は、推論クエリーを処理し、それをモデルに渡して、推論出力を返すサーバーまたは推論サービスを作成する YAML ファイルです。MicroShift では、出力は CLI で返されます。この推論サービス設定ファイルには、ハードウェアアクセラレーターの指定など、他の多くのオプションも含めることができます。
MicroShift はシングルノードの Kubernetes ディストリビューションであるため、マルチモデルのデプロイメントをサポートしません。シングルモデルサービングプラットフォームを使用する必要があります。MicroShift の各デプロイメントでは、1 つの AI モデルを使用できますが、複数のモデルランタイムを使用する可能性もあります。
- モデルサービングランタイムを設定するためのワークフロー
- AI モデルの形式をサポートするモデルサービングランタイムを選択します。
-
ワークロード namespace に
ServingRuntimeCR を作成します。 -
MicroShift ノードがすでに実行されている場合は、必要な
ServingRuntimeCR をファイルにエクスポートして編集できます。 -
MicroShift ノードが実行されていない場合や、マニフェストを手動で作成する場合は、
microshift-ai-model-servingRPM の一部であるディスクで元の定義を使用できます。 -
ワークロード namespace に
InferenceServiceCR を作成します。
1.6.1. サポートされている Red Hat OpenShift AI Self-Managed カスタムリソース定義 リンクのコピーリンクがクリップボードにコピーされました!
次の Red Hat OpenShift AI Self-Managed カスタムリソース定義 (CRD) がサポートされています。
-
InferenceServices -
TrainedModels -
ServingRuntimes -
InferenceGraphs -
ClusterStorageContainers -
ClusterLocalModels -
LocalModelNodeGroups
1.6.2. サポートされている Red Hat OpenShift AI Self-Managed モデルサービングランタイム リンクのコピーリンクがクリップボードにコピーされました!
MicroShift デプロイメントでは、次の Red Hat OpenShift AI Self-Managed モデルサービングランタイムが検証されています。
- vLLM ServingRuntime for KServe
OpenVINO Model Server
重要OpenVINO Model Server は、IPv6 ネットワークプロトコルをサポートしていません。使用前に各モデルサーバーをチェックして、ネットワーク設定をサポートしていることを確認してください。
MicroShift では、開発目的で次のランタイムが利用できます。
- Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe
- Caikit Standalone ServingRuntime for KServe
- Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe
- vLLM ServingRuntime with Gaudi accelerators support for KServe
- vLLM ROCm ServingRuntime for KServe
- 作成してテストするカスタムランタイム