第3章 OpenShift AI をアップグレードするための要件
OpenShift AI をアップグレードする場合は、次のタスクを完了する必要があります。
DataScienceCluster オブジェクト内のコンポーネントを確認する
Red Hat OpenShift AI をアップグレードする場合、アップグレードプロセスでは、以前の DataScienceCluster オブジェクトの値が自動的に使用されます。
アップグレード後、Web コンソールを使用した Red Hat OpenShift AI コンポーネントのインストールステータスの更新 の説明に従って、DataScienceCluster オブジェクトを検査し、必要に応じてコンポーネントのステータスを更新する必要があります。
アップグレード中に、新しいコンポーネントが DataScienceCluster オブジェクトに自動的に追加されることはありません。新しいコンポーネントを使用する場合は、DataScienceCluster オブジェクトを手動で編集して、コンポーネントエントリーを追加する必要があります。
データサイエンスパイプラインの移行
これまで、OpenShift AI のデータサイエンスパイプラインは KubeFlow Pipelines v1 をベースにしていました。データサイエンスパイプラインは現在、異なるワークフローエンジンを使用する KubeFlow Pipelines v2 をベースにしています。OpenShift AI では、デフォルトで Data Science Pipelines 2.0 が有効化され、デプロイされます。
Data Science Pipelines 1.0 リソースは、OpenShift AI によってサポートも管理もされなくなりました。ダッシュボードまたは KFP API サーバーから、Data Science Pipelines 1.0 に基づくパイプラインの詳細をデプロイ、表示、または編集することはできなくなりました。
OpenShift AI は、既存の Data Science Pipelines 1.0 インスタンスを 2.0 に自動的に移行しません。OpenShift AI をアップグレードする前に、既存の Data Science Pipelines 1.0 インスタンスを手動で移行する必要があります。詳細は、Data Science Pipelines 2.0 への移行 を参照してください。
Data Science Pipelines 2.0 には、Argo Workflows のインストールが含まれています。Red Hat では、Argo Workflows に含まれるこのインスタンスを直接使用することはサポートしていません。
Data Science Pipelines を有効にした状態で OpenShift AI にアップグレードしても、Data Science Pipelines でインストールされていない Argo Workflows インスタンスがクラスター上に存在する場合、OpenShift AI のコンポーネントがアップグレードされません。コンポーネントのアップグレードを完了するには、Data Science Pipelines を無効にするか、該当する Argo Workflows インスタンスを削除してください。コンポーネントのアップグレードは自動的に完了します。
KServe 要件に対処する
大規模モデルを提供するためにシングルモデルサービングプラットフォームが使用する KServe コンポーネントの場合は、次の要件を満たす必要があります。
- KServe を完全にインストールして使用するには、Red Hat OpenShift Serverless および Red Hat OpenShift Service Mesh の Operator もインストールし、追加の設定を実行する必要があります。詳細は、大規模モデルのサービング を参照してください。
-
シングルモデルサービングプラットフォームの認可プロバイダーを追加する場合は、
Red Hat - AuthorinoOperator をインストールする必要があります。詳細は、シングルモデルサービングプラットフォームの認可プロバイダーの追加 を参照してください。
RAG 依存関係に対処する
Llama Stack を使用して検索拡張生成 (RAG) ワークロードをデプロイする予定の場合は、次の要件を満たす必要があります。
- クラスターで GPU 対応ノードが使用可能であり、Node Feature Discovery Operator と NVIDIA GPU Operator がインストールされている。詳細は、Node Feature Discovery Operator のインストール と NVIDIA GPU の有効化 を参照してください。
- モデルアーティファクトのストレージにアクセスできる。
- KServe インストールの前提条件を満たしている。
OdhDashboardConfig リソースと対話するワークフローの更新
以前は、クラスター管理者は、OdhDashboardConfig リソースの groupsConfig オプションを使用して、OpenShift AI ダッシュボードにアクセスできる OpenShift グループ (管理者と非管理者の両方) を管理していました。OpenShift AI 2.17 以降、この機能は Auth リソースに移動されました。OdhDashboardConfig と対話するワークフロー (GitOps ワークフローなど) がある場合は、代わりに Auth リソースを参照するように更新する必要があります。
| OpenShift AI 2.16 以前 | OpenShift AI 2.17 以降 | |
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
| Admin groups |
|
|
| User groups |
|
|
組み込み Kueue を Red Hat build of Kueue に移行する
分散ワークロードを管理するための組み込み Kueue コンポーネントは非推奨になりました。OpenShift AI は、Red Hat build of Kueue Operator を使用して、分散トレーニング、ワークベンチ、モデルサービングワークロード全体でワークロードスケジューリング機能が強化されました。
ワークロードがキュー管理を引き続き使用するようにするには、組み込み Kueue コンポーネントから Red Hat build of Kueue Operator に移行する必要があります。これには OpenShift Container Platform 4.18 以降が必要です。詳細は、Red Hat build of Kueue Operator への移行 を参照してください。
組み込み Kueue の更新
まだ Red Hat build of Kueue Operator に移行していない場合は、組み込み Kueue コンポーネントを更新する必要があります。
OpenShift AI では、クラスター管理者は Kueue を使用して分散ワークロードのクォータ管理を設定します。
OpenShift AI 2.17 以前からアップグレードすると、MultiKueue カスタムリソース定義 (CRD) のバージョンが v1alpha1 から v1beta1 に変更になります。
ただし、kueue コンポーネントが Managed に設定されている場合、Red Hat OpenShift AI Operator はアップグレード中に v1alpha1 MultiKueue CRD を自動的に削除しません。その後、Kueue コンポーネントのデプロイメントは、default-dsc DataScienceCluster カスタムリソースに示されているようにブロックされ、kueueReady 条件の値は False に設定されたままになります。
この問題は次のように解決できます。
MultiKueue 機能は現在、Red Hat OpenShift AI ではサポートされていません。MultiKueue CRD に基づいてリソースを作成した場合は、CRD を削除するとそれらのリソースも削除されます。データを損失しないように、CRD を削除する前にバックアップを作成してください。
- OpenShift Console にログインします。
-
Administrator パースペクティブで、Administration
CustomResourceDefinitions をクリックします。 -
検索フィールドに
multikと入力します。 MultiKueueCluster CRD を次のように更新します。
- CRD 名をクリックし、YAML タブをクリックします。
metadata:labelsセクションに次のエントリーが含まれていることを確認します。app.opendatahub.io/kueue: 'true'- Save をクリックします。
- 上記の手順を繰り返して、MultiKueueConfig CRD を更新します。
各 CRD に対して次の手順を実行して、MultiKueueCluster および MultiKueueConfig CRD を削除します。
- Actions メニューをクリックします。
- Delete CustomResourceDefinition をクリックします。
- Delete をクリックして削除を確定します。
Red Hat OpenShift AI Operator は Kueue Controller を起動し、Kueue は自動的に v1beta1 MultiKueue CRD を作成します。default-dsc DataScienceCluster カスタムリソースでは、kueueReady 条件が True に変わります。kueue-controller-manager-<pod-id> Pod が Running であることを確認する方法については、分散ワークロードコンポーネントのインストール を参照してください。