6.5. 非接続環境で分散データサイエンスワークロードを実行する
分散データサイエンスワークロードを非接続環境で実行するには、非接続環境から、Ray クラスターイメージ、ワークロードで使用されるデータセットおよび Python の依存関係にアクセスできる必要があります。
前提条件
-
cluster-admin
ロールで OpenShift Container Platform にログインしている。 - 非接続のデータサイエンスクラスターにアクセスできる。
- 非接続環境での OpenShift AI Self-Managed のインストールおよびアンインストール の説明に従って、Red Hat OpenShift AI をインストールし、ミラーイメージを作成している。
非接続のクラスターから、次のソフトウェアにアクセスできる。
- Ray クラスターイメージ
- ワークロードで使用されるデータセットとモデル
- Ray イメージまたは非接続のクラスターから利用可能な独自の Python Package Index (PyPI) サーバー内のワークロードの Python 依存関係
- Red Hat OpenShift AI にログインしている。
- データサイエンスプロジェクトを作成した。
手順
- 分散ワークロードの設定 の説明に従って、切断されたデータサイエンスクラスターが分散ワークロードを実行するように設定します。
ノートブックまたはパイプラインの
ClusterConfiguration
セクションで、image
値が非接続環境からアクセスできる Ray クラスターイメージを指定していることを確認します。- ノートブックは、ノートブックの実行時に Ray クラスターイメージを使用して Ray クラスターを作成します。
- パイプラインは、Ray クラスターイメージを使用して、パイプライン実行中に Ray クラスターを作成します。
ワークロードに必要な Python パッケージのいずれかが Ray クラスターで使用できない場合は、プライベート PyPI サーバーから Python パッケージをダウンロードするように Ray クラスターを設定します。
たとえば、次の例に示すように、Ray クラスターの
PIP_INDEX_URL
およびPIP_TRUSTED_HOST
環境変数を設定して、Python 依存関係の場所を指定します。PIP_INDEX_URL: https://pypi-notebook.apps.mylocation.com/simple PIP_TRUSTED_HOST: pypi-notebook.apps.mylocation.com
PIP_INDEX_URL: https://pypi-notebook.apps.mylocation.com/simple PIP_TRUSTED_HOST: pypi-notebook.apps.mylocation.com
Copy to Clipboard Copied! Toggle word wrap Toggle overflow ここでは、以下のようになります。
-
PIP_INDEX_URL
は、プライベート PyPI サーバーのベース URL を指定します (デフォルト値は https://pypi.org)。 -
PIP_TRUSTED_HOST
は、ホストが有効な SSL 証明書を持っているか、または安全なチャネルを使用しているかに関係なく、指定されたホストを信頼できるものとしてマークするように Python を設定します。
-
- ノートブックからの分散データサイエンスワークロードの実行 または データサイエンスパイプラインからの分散データサイエンスワークロードの実行 の説明に従って、分散データサイエンスワークロードを実行します。
検証
ノートブックまたはパイプライン実行はエラーなしで完了します。
-
ノートブックでは、
cluster.status()
関数またはcluster.details()
関数からの出力は、Ray クラスターがActive
であることを示します。 - パイプライン実行の場合は、パイプライン実行の詳細の表示 で説明されているように、実行の詳細を表示できます。