3.6. モデルサービングランタイム
モデルサービングランタイムを使用すると、シングルモデルサービングプラットフォームでモデルを提供できます。モデルサービングランタイムの設定は、ServingRuntime および InferenceService カスタムリソース定義 (CRD) によって定義されます。
3.6.1. ServingRuntime リンクのコピーリンクがクリップボードにコピーされました!
ServingRuntime CRD は、モデルをデプロイおよび管理するための環境であるサービスランタイムを作成します。さまざまな形式のモデルを動的にロードおよびアンロードする Pod のテンプレートを作成し、さらに推論リクエスト用のサービスエンドポイントを公開します。
次の YAML 設定は、vLLM ServingRuntime for KServe の例です。この設定には、さまざまなフラグ、環境変数、コマンドライン引数が含まれています。
- 1
- ランタイムで使用する推奨アクセラレーター。
- 2
- サービングランタイムの表示に使用する名前。
- 3
- 監視用のメトリクスをスクレイピングするために Prometheus が使用するエンドポイント。
- 4
- 監視用のメトリクスをスクレイピングするために Prometheus が使用するポート。
- 5
- ランタイムコンテナー内でモデルファイルが保存される場所へのパス。
- 6
- ランタイムコンテナー仕様内の
{{.Name}}
テンプレート変数で指定されたモデル名をランタイム環境に渡します。{{.Name}}
変数は、InferenceService
メタデータオブジェクトのspec.predictor.name
フィールドにマップされます。 - 7
- ランタイムコンテナーを起動するエントリーポイントコマンド。
- 8
- サービングランタイムによって使用されるランタイムコンテナーイメージ。このイメージは、使用するアクセラレーターの種類によって異なります。
- 9
- ランタイムをシングルモデルサービングに使用することを指定します。
- 10
- ランタイムでサポートされるモデル形式を指定します。
3.6.2. InferenceService リンクのコピーリンクがクリップボードにコピーされました!
InferenceService CRD は、推論クエリーを処理し、それをモデルに渡して、推論出力を返すサーバーまたは推論サービスを作成します。
推論サービスは次のアクションも実行します。
- モデルの場所と形式を指定します。
- モデルを提供するために使用するサービスランタイムを指定します。
- gRPC または REST 推論のパススルールートを有効にします。
- デプロイされたモデルの HTTP または gRPC エンドポイントを定義します。
次の例は、vLLM ランタイムを使用して Granite モデルをデプロイするときに生成される InferenceService YAML 設定ファイルを示しています。