第4章 データサイエンスパイプラインの使用


重要

Data Science Pipelines 1.0 は、OpenShift AI 2.8 の stable リリースでサポートされていましたが、このサポートは 2024 年 10 月 14 日に終了しました。OpenShift AI 2.8 Extended Update Support (EUS) リリースでは、Data Science Pipelines 1.0 リソースは引き続き実行されますが、Red Hat ではサポートされなくなりました。2.8 リリースのライフサイクル (フルサポートフェーズ期間を含む) の詳細は、Red Hat OpenShift AI Self-Managed のライフサイクル を参照してください。

データサイエンティストは、Docker コンテナーを使用して、データサイエンスパイプラインを備えたポータブル機械学習 (ML) ワークフローを構築することで、OpenShift AI でデータサイエンスプロジェクトを強化できます。これにより、機械学習ワークフローを標準化および自動化し、データサイエンスモデルを開発およびデプロイできるようになります。

たとえば、機械学習ワークフローのステップには、データ抽出、データ処理、機能抽出、モデルトレーニング、モデル検証、モデルサービスなどの項目が含まれる場合があります。これらのアクティビティーを自動化すると、組織は新しく受信したデータに基づいてモデルを再トレーニングおよび更新する継続的なプロセスを開発できるようになります。これは、統合された機械学習デプロイメントの構築と実稼働環境の継続的な運用に関連する課題に対処するのに役立ちます。

Elyra JupyterLab 拡張機能を使用して、JupyterLab 内でデータサイエンスパイプラインを作成して実行することもできます。詳細は、JupyterLab でのパイプラインの使用 を参照してください。

OpenShift AI のデータサイエンスパイプラインは、次のコンポーネントで構成されます。

  • パイプラインサーバー: データサイエンスプロジェクトに接続され、データサイエンスパイプラインをホストするサーバー。
  • パイプライン: パイプラインは、機械学習ワークフローの設定と、ワークフロー内の各コンポーネント間の関係を定義します。

    • パイプラインコード: Tekton 形式の YAML ファイル内のパイプラインの定義。
    • パイプライングラフ: パイプライン実行で実行されるステップとステップ間の関係をグラフィカルに示したもの。
  • パイプラインの実行: パイプラインの実行

    • トリガーされた実行: 以前実行されたパイプラインの実行
    • スケジュールされた実行: 少なくとも 1 回実行するようにスケジュールされたパイプライン実行

この機能は Kubeflow Pipelines v1 に基づいています。Kubeflow Pipelines SDK を使用して、Python コードでデータサイエンスパイプラインを構築します。パイプラインを構築したら、kfp-tekton SDK (バージョン 1.5.x のみ) を使用してパイプラインを Tekton 形式の YAML コードにコンパイルします。OpenShift AI ユーザーインターフェイスを使用すると、パイプラインとパイプラインの実行を追跡および管理できます。バージョン管理を使用すると、OpenShift AI のパイプラインに対する増分変更を管理できます。これにより、パイプラインをイテレーティブに開発およびデプロイし、変更の記録を保存できます。

データサイエンスパイプラインを使用する前に、OpenShift Pipelines Operator をインストールする必要があります。OpenShift Pipelines Operator の互換性のあるバージョンのインストールの詳細は、Red Hat OpenShift Pipelines リリースノート および Red Hat OpenShift AI: サポートされる構成 を参照してください。

ローカルストレージを消費しないように、パイプラインアーティファクトを S3 互換オブジェクトストレージバケットに保存できます。これを行うには、はじめにストレージアカウントで S3 バケットへの書き込みアクセスを設定する必要があります。

4.1. データサイエンスパイプラインの管理

4.1.1. パイプラインサーバーの設定

OpenShift AI でパイプラインを正常に作成するには、パイプラインサーバーを設定する必要があります。これには、パイプラインアーティファクトとデータの保存場所の設定が含まれます。

注記

パイプラインサーバーの作成後、/metadata フォルダーと /artifacts フォルダーがデフォルトの root フォルダーに自動的に作成されます。したがって、パイプラインサーバーのデータ接続を設定するときに、ストレージディレクトリーを指定する必要はありません。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを追加できるデータサイエンスプロジェクトが作成されている。
  • 既存の S3 互換オブジェクトストレージバケットがあり、ストレージアカウントに S3 バケットへの書き込みアクセスが設定されている。

手順

  1. OpenShift AI ダッシュボードから、Data Science Projects をクリックします。

    Data science projects のページが開きます。

  2. パイプラインサーバーを設定するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Pipelines セクションで、Configure a pipeline server をクリックします。

    Configure pipeline server ダイアログが表示されます。

  4. Object storage connection セクションで、必須フィールドに値を入力します。

    1. Access key フィールドに、S3 互換オブジェクトストレージプロバイダーのアクセスキー ID を入力します。
    2. Secret key フィールドに、指定した S3 互換オブジェクトストレージアカウントのシークレットアクセスキーを入力します。
    3. Endpoint フィールドに、S3 互換オブジェクトストレージバケットのエンドポイントを入力します。
    4. Bucket フィールドに、S3 互換のオブジェクトストレージバケットの名前を入力します。

      重要

      間違ったデータ接続設定を指定した場合は、同じパイプラインサーバー上でこれらの設定を更新できません。したがって、パイプラインサーバーを削除し、別のパイプラインサーバーを設定する必要があります。

  5. Database セクションで、Show advanced database options をクリックしてパイプラインデータを保存するデータベースを指定し、次の一連のアクションのいずれかを選択します。

    • プロジェクトに MariaDB データベースをデプロイするには、Use default database stored on your cluster を選択します。
    • Connect to external MySQL database を選択して、パイプラインサーバーがアクセスできる外部データベースに新しい接続を追加します。

      1. Host フィールドにデータベースのホスト名を入力します。
      2. Port フィールドにデータベースのポートを入力します。
      3. Username フィールドに、データベースに接続するデフォルトのユーザー名を入力します。
      4. Password フィールドに、デフォルトのユーザーアカウントのパスワードを入力します。
      5. Database フィールドにデータベース名を入力します。
  6. Configure をクリックします。

検証

  • 設定したパイプラインサーバーは、プロジェクトの詳細ページの Pipelines セクションに表示されます。
  • Import pipeline ボタンは、プロジェクトの詳細ページの Pipelines セクションで使用できます。

4.1.2. パイプラインの定義

Kubeflow Pipelines SDK を使用すると、エンドツーエンドの機械学習とデータパイプラインを定義できます。Kubeflow Pipelines SDK を使用して、Python コードでデータサイエンスパイプラインを構築します。パイプラインを構築したら、kfp-tekton SDK (バージョン 1.5.x のみ) を使用してパイプラインを Tekton 形式の YAML コードにコンパイルします。パイプラインを定義した後、YAML ファイルを OpenShift AI ダッシュボードにインポートして、その実行設定を設定できるようにします。Tetkon への Kubeflow Pipelines SDK のインストールおよび使用に関する詳細は、Kubeflow Pipelines SDK for Tekton を参照してください。

Elyra JupyterLab 拡張機能を使用して、JupyterLab 内でデータサイエンスパイプラインを作成して実行することもできます。JupyterLab でのパイプラインの作成に関する詳細は、JupyterLab でのパイプラインの使用 を参照してください。Elyra JupyterLab 拡張機能の詳細は、Elyra のドキュメント を参照してください。

4.1.3. データサイエンスパイプラインのインポート

OpenShift AI で簡単にデータサイエンスパイプラインの使用を開始できるように、パイプラインのコードを含む YAML ファイルをアクティブなパイプラインサーバーにインポートできます。このファイルには、Tekton コンパイラーでコンパイルされた Kubeflow パイプラインが含まれています。パイプラインをパイプラインサーバーにインポートしたら、パイプライン実行を作成してパイプラインを実行できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインをインポートするプロジェクトを選択します。
  3. Import pipeline をクリックします。

    Import pipeline ダイアログが開きます。

  4. インポートするパイプラインの詳細を入力します。

    1. Pipeline name フィールドに、インポートするパイプラインの名前を入力します。
    2. Pipeline description フィールドに、インポートするパイプラインの説明を入力します。
    3. Upload をクリックします。または、ローカルマシンのファイルシステムからファイルをドラッグし、Import pipeline ダイアログの指定された領域にドロップします。

      ファイルブラウザーが開きます。

    4. パイプラインコードを含むファイルに移動し、Select をクリックします。
    5. Import pipeline をクリックします。

検証

  • インポートしたパイプラインが Pipelines ページに表示されます。

4.1.4. データサイエンスパイプラインのダウンロード

以前に OpenShift AI にアップロードしたデータサイエンスパイプラインにさらに変更を加えるには、ユーザーインターフェイスからパイプラインのコードをダウンロードできます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインを作成し、ダウンロードできるアクティブなパイプラインサーバーにインポートしている。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインをダウンロードするプロジェクトを選択します。
  3. Pipeline name 列で、ダウンロードするパイプラインの名前をクリックします。

    Pipeline details ページが開き、Graph タブが表示されます。

  4. YAML タブをクリックします。

    ページがリロードされ、パイプラインコードを示す埋め込み YAML エディターが表示されます。

  5. Download ボタン ( rhoai download icon ) をクリックして、パイプラインのコードを含む YAML ファイルをローカルマシンにダウンロードします。

検証

  • パイプラインコードは、ブラウザーのダウンロードファイル用のデフォルトディレクトリーにダウンロードされます。

4.1.5. データサイエンスパイプラインの削除

て、Data Science Pipelines ページに表示されないように、データサイエンスパイプラインを削除できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • Pipelines ページにアクティブなパイプラインが表示される。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、削除するパイプラインを含むプロジェクトを選択します。
  3. 削除するパイプラインの横にあるアクションメニュー () をクリックし、Delete pipeline の削除をクリックします。

    Delete pipeline ダイアログが開きます。

  4. テキストフィールドにパイプライン名を入力して、削除することを確認します。
  5. Delete pipeline をクリックします。

検証

  • 削除したデータサイエンスパイプラインは、Pipelines ページに表示されなくなります。

4.1.6. パイプラインサーバーの削除

データサイエンスパイプラインの実行が終了したら、パイプラインサーバーを削除できます。パイプラインサーバーを削除すると、関連付けられているパイプライン、パイプラインバージョン、および実行がすべて自動的に削除されます。パイプラインデータがデータベースに保存されている場合は、データベースもそのメタデータとともに削除されます。さらに、パイプラインサーバーを削除した後は、別のパイプラインサーバーを作成するまで、新しいパイプラインを作成したり、パイプラインを実行したりできません。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインサーバーを削除するプロジェクトを選択します。
  3. Pipeline server actions リストから、Delete pipeline server を選択します。

    Delete pipeline server ダイアログが開きます。

  4. パイプラインサーバーの名前をテキストフィールドに入力して、削除することを確認します。
  5. Delete をクリックします。

検証

  • 削除されたパイプラインサーバーに以前に割り当てられていたパイプラインは、関連するデータサイエンスプロジェクトの Pipelines ページに表示されなくなります。
  • 削除されたパイプラインサーバーに以前に割り当てられていたパイプライン実行は、関連するデータサイエンスプロジェクトの Runs ページに表示されなくなります。

4.1.7. パイプラインサーバーの詳細の表示

パイプラインのデータ接続の詳細やそのデータの保存場所など、OpenShift AI で設定されたパイプラインサーバーの詳細を表示できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 以前に、アクティブで使用可能なパイプラインサーバーを含むデータサイエンスプロジェクトを作成している。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインサーバーを表示するプロジェクトを選択します。
  3. Pipeline server actions リストから、View pipeline server configuration を選択します。
  4. パイプラインサーバーの詳細の検査が終了したら、Done をクリックします。

検証

  • View pipeline server ダイアログで、関連するパイプラインサーバーの詳細を表示できます。

4.1.8. 既存のパイプラインの表示

Red Hat OpenShift AI にインポートしたパイプラインの詳細 (パイプラインの最後の実行、作成日、パイプラインの実行済実行など) を表示できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインがアクティブで利用可能なパイプラインサーバーにインポートされている。
  • インポートしたパイプラインが利用可能であるか、以前にインポートされ利用可能な他のパイプラインが存在するかを表示できる。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインを表示する関連プロジェクトを選択します。
  3. リストにあるパイプラインを調べてください。
  4. オプション: 関連する行の Expand ( rhoai expand icon ) をクリックして、パイプラインの実行済み実行を表示します。パイプラインに実行が含まれていない場合は、Create run クリックしてを作成します。

検証

  • 以前に作成したデータサイエンスパイプラインのリストが Pipelines ページに表示されます。

4.1.9. パイプラインのバージョンの概要

バージョン管理を使用すると、OpenShift AI のパイプラインに対する増分変更を管理できます。これにより、パイプラインをイテレーティブに開発およびデプロイし、変更の記録を保存できます。OpenShift AI ダッシュボードで変更を追跡および管理できるため、パイプラインの利用可能なすべてのバージョンに対して実行をスケジュールして実行できます。

4.1.10. パイプラインバージョンのアップロード

最新バージョンのパイプラインを含む YAML ファイルをアクティブなパイプラインサーバーにアップロードできます。このファイルは、Tekton コンパイラーでコンパイルされた Kubeflow パイプラインで構成されたものです。パイプラインバージョンをパイプラインサーバーにアップロードした後、パイプライン実行を作成することでそのバージョンを実行できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • 設定されたパイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • 利用可能なパイプラインバージョンがあり、アップロードする準備ができている。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、パイプラインバージョンをアップロードするプロジェクトを選択します。
  3. Import pipeline ドロップダウンリストをクリックし、Upload new version を選択します。

    Upload new version ダイアログが開きます。

  4. アップロードするパイプラインバージョンの詳細を入力します。

    1. Pipeline リストから、パイプラインバージョンをアップロードするパイプラインを選択します。
    2. Pipeline version name フィールドでパイプラインバージョンの名前を確認し、必要に応じて名前を変更します。
    3. Pipeline version description フィールドに、パイプラインバージョンの説明を入力します。
    4. Upload をクリックします。または、ローカルマシンのファイルシステムからファイルをドラッグし、Upload new version ダイアログの指定された領域にドロップします。

      ファイルブラウザーが開きます。

    5. パイプラインのバージョンコードを含むファイルに移動し、Select をクリックします。
    6. Upload をクリックします。

検証

  • アップロードしたパイプラインのバージョンが Pipelines ページに表示されます。パイプラインを含む行の Expand ( rhoai expand icon ) をクリックすると、そのバージョンが表示されます。

4.1.11. パイプラインバージョンの削除

パイプラインの特定のバージョンが必要なくなった場合は、削除できます。デフォルトのパイプラインバージョンを削除すると、デフォルトのパイプラインバージョンが 2 番目に最新のバージョンに自動的に変更されます。パイプラインバージョンが存在しない場合、パイプラインはデフォルトのバージョンなしで保持されます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • パイプラインがアクティブで利用可能なパイプラインサーバーにインポートされている。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、削除するパイプラインのバージョンを含むプロジェクトを選択します。
  3. パイプラインを含む行の Expand ( rhoai expand icon ) をクリックします。
  4. 削除するパイプラインバージョンを含む行のチェックボックスをオンにします。
  5. Import pipeline ドロップダウンの横にあるアクションメニュー (⋮) をクリックし、リストから Delete selected を選択します。

    Delete pipeline version ダイアログが開きます。

  6. パイプラインバージョンの名前をテキストフィールドに入力して、削除することを確定します。
  7. Delete をクリックします。

検証

  • 削除したパイプラインバージョンが Pipelines ページに表示されなくなります。

4.1.12. パイプラインバージョンの表示

Pipelines ページでパイプラインのすべてのバージョンを表示できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • アクティブで使用可能なパイプラインサーバーにパイプラインが存在する。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、表示するパイプラインバージョンを含むプロジェクトを選択します。
  3. バージョンを表示するパイプラインを含む行の Expand ( rhoai expand icon ) をクリックします。

検証

  • パイプラインのバージョンは、Pipelines ページで確認できます。

4.1.13. パイプラインバージョンの詳細の表示

Red Hat OpenShift AI にアップロードしたパイプラインバージョンの詳細 (グラフや YAML コードなど) を表示できます。

前提条件

  • OpenShift Pipelines Operator がインストールされている。
  • Red Hat OpenShift AI にログインしている。
  • 特殊な OpenShift AI グループを使用している場合は、OpenShift のユーザーグループ、または、管理者グループ (rhoai-usersrhoai-admins など) に属している。
  • パイプラインサーバーを含む利用可能なデータサイエンスプロジェクトを作成している。
  • アクティブで使用可能なパイプラインサーバーにパイプラインが存在する。

手順

  1. OpenShift AI ダッシュボードから、Data Science Pipelines Pipelines をクリックします。

    Pipelines ページが開きます。

  2. Project リストから、詳細を表示するパイプラインバージョンを含むプロジェクトを選択します。
  3. バージョンを表示するパイプラインを含む行の Expand ( rhoai expand icon ) をクリックします。
  4. 詳細を表示するパイプラインバージョンをクリックします。

    Pipeline details ページが開き、Graph タブと YAML タブが表示されます。

検証

  • Pipeline details ページで、パイプライングラフと YAML コードを表示できます。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat