第1章モデルサービングについて

モデルをサービングする場合は、トレーニング済みのモデルをクエリー用に Red Hat OpenShift AI にアップロードします。これにより、トレーニング済みのモデルをインテリジェントアプリケーションに統合できるようになります。

モデルを S3 互換のオブジェクトストレージ、永続ボリューム要求、または Open Container Initiative (OCI) イメージにアップロードできます。その後、プロジェクトワークベンチからモデルにアクセスしてトレーニングできます。モデルをトレーニングした後、モデルサービングプラットフォームを使用してモデルをサービングまたはデプロイできます。

モデルをサービングまたはデプロイすると、モデルはサービス、つまりモデルランタイムサーバーとして利用でき、API を使用してアクセスできるようになります。その後、ダッシュボードからデプロイされたモデルの推論エンドポイントにアクセスし、API 呼び出しで提供されたデータ入力を基にした予測を確認できます。API を使用したモデルのクエリーは、モデル推論とも呼ばれます。

次のいずれかのモデルサービングプラットフォームでモデルをサービングできます。

シングルモデルサービングプラットフォーム
マルチモデルサービングプラットフォーム
NVIDIA NIM モデルサービングプラットフォーム

選択するモデルサービングプラットフォームは、ビジネスニーズによって異なります。

各モデルを独自のランタイムサーバーにデプロイする場合、またはサーバーレスデプロイメントを使用する場合は、シングルモデルサービングプラットフォーム を選択します。実稼働環境での使用には、シングルモデルサービングプラットフォームが推奨されます。
1 つのランタイムサーバーのみを使用して複数のモデルをデプロイする場合は、マルチモデルサービングプラットフォーム を選択します。このオプションは、1,000 を超える小規模および中規模のモデルをデプロイし、リソースの消費を軽減する場合に最適です。
NVIDIA Inference Microservices (NIM) を使用してモデルをデプロイする場合は、NVIDIA NIM モデルサービングプラットフォーム を選択します。

1.1. シングルモデルサービングプラットフォーム

シングルモデルサービングプラットフォーム上の専用モデルサービングから各モデルをデプロイできます。専用のモデルサーバーからモデルをデプロイすると、リソースの増加を必要とするモデルの展開、監視、拡張、保守に役立ちます。このモデルサービングプラットフォームは、大規模なモデルを提供するのに最適です。シングルモデルサービングプラットフォームは、KServe コンポーネントに基づいています。

シングルモデルサービングプラットフォームは、次のようなユースケースに役立ちます。

大規模言語モデル (LLM)
生成 AI

シングルモデルサービングプラットフォームの設定の詳細は、シングルモデルサービングプラットフォームのインストールを参照してください。

第1章モデルサービングについて

1.1. シングルモデルサービングプラットフォーム

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Red Hat legal and privacy links

Red Hat legal and privacy links

第1章 モデルサービングについて

1.1. シングルモデルサービングプラットフォーム

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Red Hat legal and privacy links

Red Hat legal and privacy links

第1章モデルサービングについて