はじめに
データサイエンティストは、Docker コンテナーを使用して、データサイエンスパイプラインを備えたポータブル機械学習 (ML) ワークフローを構築することで、OpenShift AI でデータサイエンスプロジェクトを強化できます。これにより、機械学習ワークフローを標準化および自動化し、データサイエンスモデルを開発およびデプロイできるようになります。
たとえば、機械学習ワークフローのステップには、データ抽出、データ処理、機能抽出、モデルトレーニング、モデル検証、モデルサービスなどの項目が含まれる場合があります。これらのアクティビティーを自動化すると、組織は新しく受信したデータに基づいてモデルを再トレーニングおよび更新する継続的なプロセスを開発できるようになります。これは、統合された機械学習デプロイメントの構築と実稼働環境の継続的な運用に関連する課題に対処するのに役立ちます。
Elyra JupyterLab 拡張機能を使用して、JupyterLab 内でデータサイエンスパイプラインを作成して実行することもできます。詳細は、JupyterLab でのパイプラインの使用 を参照してください。
OpenShift AI のデータサイエンスパイプラインは KubeFlow Pipelines (KFP) バージョン 2.0 をベースにするようになりました。詳細は、Data Science Pipelines 2.0 への移行 を参照してください。
OpenShift AI でデータサイエンスパイプラインを使用するには、次のコンポーネントが必要です。
- Pipeline server: データサイエンスプロジェクトに接続され、データサイエンスパイプラインをホストするサーバー。
Pipeline: パイプラインは、機械学習ワークフローの設定と、ワークフロー内の各コンポーネント間の関係を定義します。
- パイプラインコード: YAML ファイルでのパイプラインの定義。
- パイプライングラフ: パイプライン実行で実行されるステップとステップ間の関係をグラフィカルに示したもの。
Pipeline experiment: パイプラインのさまざまな設定を試すことができるワークスペース。実験を使用して、実行を論理グループにまとめることができます。
- アーカイブされたパイプライン実験: アーカイブされたパイプラインの実験。
- パイプラインアーティファクト: パイプラインコンポーネントによって生成された出力アーティファクト。
- パイプラインの (タスク) 実行: パイプライン内のタスクの実行。
Pipeline run: パイプラインの実行
- アクティブな実行: 実行中または停止中のパイプライン実行。
- スケジュールされた実行: 少なくとも 1 回実行するようにスケジュールされたパイプライン実行。
- アーカイブされた実行: アーカイブされたパイプライン実行。
この機能は Kubeflow Pipelines 2.0 をベースとしています。最新の Kubeflow Pipelines 2.0 SDK を使用して、Python コードでデータサイエンスパイプラインを構築します。パイプラインを構築したら、SDK を使用してパイプラインを中間表現 (IR) YAML ファイルにコンパイルします。OpenShift AI ユーザーインターフェイスを使用すると、パイプライン、実験、パイプライン実行を追跡および管理できます。以前に実行、スケジュール、アーカイブされた実行の記録を表示するには、Data science pipelines
ローカルストレージを消費しないように、パイプラインアーティファクトを S3 互換オブジェクトストレージバケットに保存できます。これを行うには、はじめにストレージアカウントで S3 バケットへの書き込みアクセスを設定する必要があります。