第3章 大規模モデルのサービング
Red Hat OpenShift AI には、大規模言語モデル (LLM) などの大規模モデルをデプロイするために、KServe コンポーネントをベースとした シングルモデルサービングプラットフォーム が組み込まれています。各モデルが独自のモデルサーバーからデプロイされるため、シングルモデルサービスプラットフォームは、多くのリソースを必要とする大規模なモデルのデプロイ、監視、スケーリング、および保守に役立ちます。
3.1. シングルモデルサービスプラットフォームについて
単一モデルのサービスプラットフォームは、次のコンポーネントで構成されます。
- KServe: あらゆるタイプのモデルに対するモデルサービスを調整する Kubernetes カスタムリソース定義 (CRD)。これには、指定されたモデルサーバータイプの読み込みを実装するモデルサービングランタイムが含まれます。KServe は、デプロイメントオブジェクト、ストレージアクセス、およびネットワーク設定のライフサイクルを処理します。
- Red Hat OpenShift Serverless: モデルのサーバーレスデプロイメントを可能にするクラウドネイティブ開発モデル。OpenShift Serverless は、オープンソースの Knative プロジェクトをベースにしています。
Red Hat OpenShift Service Mesh: トラフィックフローを管理し、アクセスポリシーを適用するサービスメッシュネットワーキングレイヤー。OpenShift Service Mesh は、オープンソースの Istio プロジェクトをベースにしています。
注記現在、OpenShift Service Mesh v2 のみがサポートされています。詳細は、サポートされる構成 を参照してください。
単一モデルのサービスプラットフォームをインストールするには、次のオプションがあります。
- 自動インストール
-
OpenShift クラスターに
ServiceMeshControlPlane
またはKNativeServing
リソースをまだ作成していない場合は、KServe とその依存関係をインストールするように Red Hat OpenShift AI Operator を設定できます。 - 手動インストール
-
OpenShift クラスターに
ServiceMeshControlPlane
またはKNativeServing
リソースをすでに作成している場合は、KServe とその依存関係をインストールするように Red Hat OpenShift AI Operator を 設定できません。この状況では、KServe を手動でインストールする必要があります。
KServe をインストールすると、OpenShift AI ダッシュボードを使用して、カスタムまたはプリインストールされたモデル提供ランタイムを使用してモデルをデプロイできます。
OpenShift AI には、次の KServe 用のプリインストールされたランタイムが組み込まれています。
- スタンドアロンの TGIS ランタイム
- 複合 Caikit-TGIS ランタイム
- OpenVINO Model Server
- Text Generation Inference Server (TGIS) は、Hugging Face TGI の初期のフォークに基づいています。Red Hat は、TGI モデルをサポートするスタンドアロン TGIS ランタイムの開発を継続します。モデルが OpenShift AI の現在のバージョンで機能しない場合、今後のバージョンでサポートが追加される可能性があります。それまでの間は、独自のカスタムランタイムを追加して TGI モデルをサポートすることもできます。詳細は、シングルモデルサービスプラットフォーム用のカスタムモデルサービスランタイムの追加 を参照してください。
- 複合 Caikit-TGIS ランタイムは、Caikit および Text Generation Inference Server (TGIS) に基づいています。このランタイムを使用するには、モデルを Caikit 形式に変換する必要があります。例は、caikit-tgis-serving リポジトリーの Converting Hugging Face Hub models to Caikit format を参照してください。
シングルモデルサービスプラットフォームのモニタリングを設定し、Prometheus を使用して利用可能なメトリクスを取得することもできます。