1.6. MicroShift で AI モデルを提供する


ServingRuntime および InferenceService カスタムリソース (CR) を使用してモデルサービングランタイムを設定することにより、MicroShift の Red Hat OpenShift AI Self-Managed シングルモデルサービングプラットフォームでモデルを提供できます。

MicroShift の AI モデル向けモデルサービングランタイム
モデルサービングランタイムは、AI モデルをデプロイおよび管理するための環境であり、指定されたモデルサーバーとそれがサポートするモデルフレームワークとの統合を提供します。モデルサービングランタイムを作成するということは、デプロイメントに固有のその他の詳細な機能の中でも、AI モデルに適切なモデル形式を選択してクエリーを処理するオブジェクトを設定することを意味します。
ServingRuntime カスタムリソース
ServingRuntime CR は、AI モデル形式を動的にロードおよびアンロードできる Pod のテンプレートを定義し、API を介してモデルをクエリーするためのサービスエンドポイントを公開する YAML ファイルです。各 ServingRuntime CR には、ランタイムのコンテナーイメージや、モデルサービングランタイムがサポートするモデル形式のリストなど、AI モデルの実行に必要な情報が含まれています。モデルサービングランタイムのその他の設定は、コンテナー仕様で定義された環境変数を使用して設定できます。
InferenceService カスタムリソース
InferenceService CR は、推論クエリーを処理し、それをモデルに渡して、推論出力を返すサーバーまたは推論サービスを作成する YAML ファイルです。MicroShift では、出力は CLI で返されます。この推論サービス設定ファイルには、ハードウェアアクセラレーターの指定など、他の多くのオプションも含めることができます。
重要

MicroShift はシングルノードの Kubernetes ディストリビューションであるため、マルチモデルのデプロイメントをサポートしません。シングルモデルサービングプラットフォームを使用する必要があります。MicroShift の各デプロイメントでは、1 つの AI モデルを使用できますが、複数のモデルランタイムを使用する可能性もあります。

モデルサービングランタイムを設定するためのワークフロー
  • AI モデルの形式をサポートするモデルサービングランタイムを選択します。
  • ワークロード namespace に ServingRuntime CR を作成します。
  • MicroShift ノードがすでに実行されている場合は、必要な ServingRuntime CR をファイルにエクスポートして編集できます。
  • MicroShift ノードが実行されていない場合や、マニフェストを手動で作成する場合は、microshift-ai-model-serving RPM の一部であるディスクで元の定義を使用できます。
  • ワークロード namespace に InferenceService CR を作成します。

1.6.1. サポートされている Red Hat OpenShift AI Self-Managed カスタムリソース定義

次の Red Hat OpenShift AI Self-Managed カスタムリソース定義 (CRD) がサポートされています。

  • InferenceServices
  • TrainedModels
  • ServingRuntimes
  • InferenceGraphs
  • ClusterStorageContainers
  • ClusterLocalModels
  • LocalModelNodeGroups

1.6.2. サポートされている Red Hat OpenShift AI Self-Managed モデルサービングランタイム

MicroShift デプロイメントでは、次の Red Hat OpenShift AI Self-Managed モデルサービングランタイムが検証されています。

  • vLLM ServingRuntime for KServe
  • OpenVINO Model Server

    重要

    OpenVINO Model Server は、IPv6 ネットワークプロトコルをサポートしていません。使用前に各モデルサーバーをチェックして、ネットワーク設定をサポートしていることを確認してください。

MicroShift では、開発目的で次のランタイムが利用できます。

  • Caikit Text Generation Inference Server (Caikit-TGIS) ServingRuntime for KServe
  • Caikit Standalone ServingRuntime for KServe
  • Text Generation Inference Server (TGIS) Standalone ServingRuntime for KServe
  • vLLM ServingRuntime with Gaudi accelerators support for KServe
  • vLLM ROCm ServingRuntime for KServe
  • 作成してテストするカスタムランタイム
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat