第1章 モデルサービングについて
モデルをサービングする場合は、トレーニング済みのモデルをクエリー用に Red Hat OpenShift AI にアップロードします。これにより、トレーニング済みのモデルをインテリジェントアプリケーションに統合できるようになります。
モデルを S3 互換のオブジェクトストレージ、永続ボリューム要求、または Open Container Initiative (OCI) イメージにアップロードできます。その後、プロジェクトワークベンチからモデルにアクセスしてトレーニングできます。モデルをトレーニングした後、モデルサービングプラットフォームを使用してモデルをサービングまたはデプロイできます。
モデルをサービングまたはデプロイすると、モデルはサービス、つまりモデルランタイムサーバーとして利用でき、API を使用してアクセスできるようになります。その後、ダッシュボードからデプロイされたモデルの推論エンドポイントにアクセスし、API 呼び出しで提供されたデータ入力を基にした予測を確認できます。API を使用したモデルのクエリーは、モデル推論とも呼ばれます。
次のいずれかのモデルサービングプラットフォームでモデルをサービングできます。
- シングルモデルサービングプラットフォーム
- マルチモデルサービングプラットフォーム
- NVIDIA NIM モデルサービングプラットフォーム
選択するモデルサービングプラットフォームは、ビジネスニーズによって異なります。
- 各モデルを独自のランタイムサーバーにデプロイする場合、またはサーバーレスデプロイメントを使用する場合は、シングルモデルサービングプラットフォーム を選択します。実稼働環境での使用には、シングルモデルサービングプラットフォームが推奨されます。
- 1 つのランタイムサーバーのみを使用して複数のモデルをデプロイする場合は、マルチモデルサービングプラットフォーム を選択します。このオプションは、1,000 を超える小規模および中規模のモデルをデプロイし、リソースの消費を軽減する場合に最適です。
- NVIDIA Inference Microservices (NIM) を使用してモデルをデプロイする場合は、NVIDIA NIM モデルサービングプラットフォーム を選択します。
1.1. シングルモデルサービングプラットフォーム
シングルモデルサービングプラットフォーム上の専用モデルサービングから各モデルをデプロイできます。専用のモデルサーバーからモデルをデプロイすると、リソースの増加を必要とするモデルの展開、監視、拡張、保守に役立ちます。このモデルサービングプラットフォームは、大規模なモデルを提供するのに最適です。シングルモデルサービングプラットフォームは、KServe コンポーネントに基づいています。
シングルモデルサービングプラットフォームは、次のようなユースケースに役立ちます。
- 大規模言語モデル (LLM)
- 生成 AI
シングルモデルサービングプラットフォームの設定の詳細は、シングルモデルサービングプラットフォームのインストール を参照してください。