第5章 JupyterLab でのパイプラインの使用
5.1. JupyterLab のパイプラインの概要 リンクのコピーリンクがクリップボードにコピーされました!
Elyra を使用して、JupyterLab で視覚的なエンドツーエンドのパイプラインワークフローを作成できます。Elyra は、OpenShift AI で実行できるパイプラインワークフローを作成するための Pipeline Editor を提供する JupyterLab の拡張機能です。
以下のノートブックイメージのいずれかの最新バージョンを作成すると、JupyterLab 内の Elyra 拡張にアクセスできます。
- Standard Data Science
- PyTorch
- TensorFlow
- TrustyAI
Pipeline Editor を使用してパイプラインを視覚的に設計する場合、最小限のコーディングでパイプラインを作成および実行できます。Elyra の詳細は、Elyra ドキュメンテーション を参照してください。Pipeline Editor の詳細は、Visual Pipeline Editor を参照してください。パイプラインを作成したら、JupyterLab でローカルに実行することも、OpenShift AI のデータサイエンスパイプラインを使用してリモートで実行することもできます。
パイプライン作成プロセスは、次のタスクで構成されます。
- ワークベンチを含むデータサイエンスプロジェクトを作成する。
- パイプラインサーバーを作成する。
- JupyterLab の Pipeline Editor で新規パイプラインを作成する。
- Python ノートブックまたは Python スクリプトを追加し、それらのランタイムプロパティーを定義してパイプラインを開発する。
- 実行の依存関係を定義する。
- Pipeline を実行するか、エクスポートする。
JupyterLab でパイプラインを実行するには、パイプラインインスタンスにランタイム設定が含まれている必要があります。ランタイム設定は、パイプラインインスタンスと S3 互換クラウドストレージの接続情報を定義します。
データサイエンスプロジェクトの一部としてワークベンチを作成すると、デフォルトのランタイム設定が自動的に作成されます。ただし、OpenShift AI ダッシュボードの Jupyter タイルからノートブックを作成する場合は、JupyterLab でパイプラインを実行する前にランタイム設定を作成する必要があります。ランタイム設定の詳細は、Runtime Configuration を参照してください。前提条件として、ワークベンチを作成する前に、ワークベンチと同じデータサイエンスプロジェクト内にパイプラインサーバーを作成および設定していることを確認します。
S3 互換クラウドストレージを使用すると、ノートブックやスクリプトの実行中にデータを利用できるようになります。クラウドストレージには、JupyterLab を実行するデプロイメント内のマシン、および Data Science Pipelines をホストするクラスターからアクセスできる必要があります。JupyterLab でパイプラインを作成して実行する前に、s3 互換ストレージの認証情報がすぐに利用できることを確認してください。