第2章 モデルの管理と監視
クラスター管理者は、監視設定、複数の GPU ノードへのモデルのデプロイ、リアルタイムメトリクスを視覚化する Grafana ダッシュボードの設定などのタスクを実行できます。
2.1. KServe のタイムアウトの設定 リンクのコピーリンクがクリップボードにコピーされました!
大規模なモデルをデプロイする場合、または KServe でノードの自動スケーリングを使用する場合、モデルがデプロイされる前に操作がタイムアウトすることがあります。KNative Serving が設定するデフォルトの progress-deadline が 10 分であるためです。
KNative Serving を使用した Pod のデプロイに 10 分以上かかる場合、Pod が自動的に失敗とマークされる可能性があります。これは、S3 互換のオブジェクトストレージからプルするのに 10 分以上かかる大規模なモデルをデプロイしている場合、またはノードの自動スケーリングを使用して GPU ノードの消費を削減している場合に発生する可能性があります。
この問題を解決するには、アプリケーションに合わせて KServe の InferenceService でカスタムの progress-deadline を設定できます。
前提条件
- OpenShift クラスターの namespace 編集アクセス権がある。
手順
- OpenShift コンソールにクラスター管理者としてログインします。
- モデルをデプロイしたプロジェクトを選択します。
-
Administrator パースペクティブで、Home
Search をクリックします。 -
Resources ドロップダウンメニューから、
InferenceServiceを検索します。 spec.predictor.annotationsの下のserving.knative.dev/progress-deadlineを新しいタイムアウトに変更します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 注記必ず
spec.predictor.annotationsレベルでprogress-deadlineを設定して、KServe のInferenceServiceがprogress-deadlineを KNative Service オブジェクトにコピーできるようにしてください。