1.6. MicroShift で AI モデルを提供する

ServingRuntime および InferenceService カスタムリソース (CR) を使用してモデルサービングランタイムを設定することにより、MicroShift の Red Hat OpenShift AI Self-Managed シングルモデルサービングプラットフォームでモデルを提供できます。

MicroShift の AI モデル向けモデルサービングランタイム: モデルサービングランタイムは、AI モデルをデプロイおよび管理するための環境であり、指定されたモデルサーバーとそれがサポートするモデルフレームワークとの統合を提供します。モデルサービングランタイムを作成するということは、デプロイメントに固有のその他の詳細な機能の中でも、AI モデルに適切なモデル形式を選択してクエリーを処理するオブジェクトを設定することを意味します。
ServingRuntime カスタムリソース: ServingRuntime CR は、AI モデル形式を動的にロードおよびアンロードできる Pod のテンプレートを定義し、API を介してモデルをクエリーするためのサービスエンドポイントを公開する YAML ファイルです。各 ServingRuntime CR には、ランタイムのコンテナーイメージや、モデルサービングランタイムがサポートするモデル形式のリストなど、AI モデルの実行に必要な情報が含まれています。モデルサービングランタイムのその他の設定は、コンテナー仕様で定義された環境変数を使用して設定できます。
InferenceService カスタムリソース: InferenceService CR は、推論クエリーを処理し、それをモデルに渡して、推論出力を返すサーバーまたは推論サービスを作成する YAML ファイルです。MicroShift では、出力は CLI で返されます。この推論サービス設定ファイルには、ハードウェアアクセラレーターの指定など、他の多くのオプションも含めることができます。

重要

MicroShift はシングルノードの Kubernetes ディストリビューションであるため、マルチモデルのデプロイメントをサポートしません。シングルモデルサービングプラットフォームを使用する必要があります。MicroShift の各デプロイメントでは、1 つの AI モデルを使用できますが、複数のモデルランタイムを使用する可能性もあります。

モデルサービングランタイムを設定するためのワークフロー

AI モデルの形式をサポートするモデルサービングランタイムを選択します。
ワークロード namespace に ServingRuntime CR を作成します。
MicroShift ノードがすでに実行されている場合は、必要な ServingRuntime CR をファイルにエクスポートして編集できます。
MicroShift ノードが実行されていない場合、またはマニフェストを手動で準備する場合は、microshift-ai-model-serving RPM の一部であるディスク上の元の定義を使用できます。
ワークロード namespace に InferenceService CR を作成します。

1.6.1. サポートされている Red Hat OpenShift AI Self-Managed カスタムリソース定義
リンクのコピー

次の Red Hat OpenShift AI Self-Managed カスタムリソース定義 (CRD) がサポートされています。

InferenceServices
TrainedModels
ServingRuntimes
InferenceGraphs
ClusterStorageContainers
ClusterLocalModels
LocalModelNodeGroups

1.6.2. サポートされている Red Hat OpenShift AI Self-Managed モデルサービングランタイム
リンクのコピー

MicroShift デプロイメントでは、次の Red Hat OpenShift AI Self-Managed モデルサービングランタイムが検証されています。

vLLM ServingRuntime for KServe
OpenVINO Model Server
重要
OpenVINO Model Server は、IPv6 ネットワークプロトコルをサポートしていません。使用前に各モデルサーバーをチェックして、ネットワーク設定をサポートしていることを確認してください。

MicroShift では、開発目的で次のランタイムが利用できます。

Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe
Caikit Standalone ServingRuntime for KServe
Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe
vLLM ServingRuntime with Gaudi accelerators support for KServe
vLLM ROCm ServingRuntime for KServe
作成してテストするカスタムランタイム

1.6. MicroShift で AI モデルを提供する

1.6.1. サポートされている Red Hat OpenShift AI Self-Managed カスタムリソース定義
リンクのコピー

1.6.2. サポートされている Red Hat OpenShift AI Self-Managed モデルサービングランタイム
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

1.6. MicroShift で AI モデルを提供する

1.6.1. サポートされている Red Hat OpenShift AI Self-Managed カスタムリソース定義リンクのコピーリンクがクリップボードにコピーされました!

1.6.2. サポートされている Red Hat OpenShift AI Self-Managed モデルサービングランタイムリンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

1.6.1. サポートされている Red Hat OpenShift AI Self-Managed カスタムリソース定義
リンクのコピー

1.6.2. サポートされている Red Hat OpenShift AI Self-Managed モデルサービングランタイム
リンクのコピー