第1章 データサイエンスパイプラインの管理


1.1. パイプラインサーバーの設定

OpenShift AI でパイプラインを正常に作成するには、パイプラインサーバーを設定する必要があります。このタスクには、パイプラインアーティファクトとデータの保存場所の設定が含まれます。

注記

パイプラインサーバーの接続を設定するときに、ストレージディレクトリーを指定する必要はありません。パイプラインをインポートすると、バケットの root フォルダーに、パイプラインの YAML ファイルが含まれる /pipelines フォルダーが作成されます。同じパイプラインの新しいバージョンをアップロードすると、異なる ID を持つ新しい YAML ファイルが /pipelines フォルダーに追加されます。

パイプラインを実行すると、アーティファクトはバケットの root フォルダー内の /pipeline-name フォルダーに保存されます。

重要

外部の MySQL データベースを使用しており、Data Science Pipelines 2.0 を備えた OpenShift AI にアップグレードした場合、データベースは Data Science Pipelines 2.0 形式に移行され、以前のバージョンの OpenShift AI と互換性がなくなります。

前提条件

  • Red Hat OpenShift AI にログインしている。
  • パイプラインサーバーを追加できるデータサイエンスプロジェクトが作成されている。
  • 既存の S3 互換オブジェクトストレージバケットがあり、ストレージアカウントに S3 バケットへの書き込みアクセスが設定されている。
  • 実稼働パイプラインワークロード用にパイプラインサーバーを設定する場合は、既存の外部 MySQL または MariaDB データベースがある。
  • 外部 MySQL データベースを使用してパイプラインサーバーを設定する場合、データベースで MySQL バージョン 5.x 以降を使用する必要がある。ただし、Red Hat では MySQL バージョン 8.x の使用を推奨しています。

    注記

    ML メタデータコンポーネントがデータベースに正常に接続するために、mysql_native_password 認証プラグインが必要です。mysql_native_password は、MySQL 8.4 以降ではデフォルトで無効になっています。データベースで MySQL 8.4 以降を使用している場合は、MySQL デプロイメントを更新して mysql_native_password プラグインを有効にする必要があります。

    mysql_native_password プラグインを有効にする方法の詳細は、MySQL ドキュメントの Native Pluggable Authentication を参照してください。

  • MariaDB データベースを使用してパイプラインサーバーを設定する場合、データベースで MariaDB バージョン 10.3 以降を使用する必要がある。ただし、Red Hat では MariaDB バージョン 10.5 以降の使用を推奨しています。

手順

  1. OpenShift AI ダッシュボードで、Data science projects をクリックします。

    Data science projects のページが開きます。

  2. パイプラインサーバーを設定するプロジェクトの名前をクリックします。

    プロジェクトの詳細ページが開きます。

  3. Pipelines タブをクリックします。
  4. Configure pipeline server をクリックします。

    Configure pipeline server ダイアログが開きます。

  5. Object storage connection セクションで、必須フィールドに値を入力します。

    1. Access key フィールドに、S3 互換オブジェクトストレージプロバイダーのアクセスキー ID を入力します。
    2. Secret key フィールドに、指定した S3 互換オブジェクトストレージアカウントのシークレットアクセスキーを入力します。
    3. Endpoint フィールドに、S3 互換オブジェクトストレージバケットのエンドポイントを入力します。
    4. Region フィールドに、S3 互換オブジェクトストレージアカウントのデフォルトのリージョンを入力します。
    5. Bucket フィールドに、S3 互換のオブジェクトストレージバケットの名前を入力します。

      重要

      誤った接続設定を指定した場合、同じパイプラインサーバー上でこれらの設定を更新できません。したがって、パイプラインサーバーを削除し、別のパイプラインサーバーを設定する必要があります。

      パイプラインのタスクによって生成されていない既存のアーティファクトを使用する場合は、kfp.dsl.importer コンポーネント を使用して、その URI からアーティファクトをインポートできます。これらのアーティファクトは、パイプラインサーバー設定の Bucket フィールドで定義した S3 互換オブジェクトストレージバケットにのみインポートできます。kfp.dsl.importer コンポーネントの詳細は、特殊なケース: インポーターコンポーネント を参照してください。

  6. Advanced settings をクリックすると、DatabasePipeline definition storage、および Pipeline caching セクションが表示されます。
  7. Database セクションで、次のいずれかのオプションを選択して、パイプラインのメタデータと実行情報を保存する場所を指定します。

    • プロジェクトに MariaDB データベースをデプロイするには、Default database on the cluster を選択します。

      重要

      Default database on the cluster オプションは、開発およびテスト目的のみを対象とします。実稼働パイプラインのワークロードの場合は、External MySQL database オプションを選択して、外部の MySQL または MariaDB データベースを使用します。

    • パイプラインサーバーがアクセスできる外部 MySQL または MariaDB データベースへの新しい接続を追加するには External MySQL database を選択します。

      1. Host フィールドにデータベースのホスト名を入力します。
      2. Port フィールドにデータベースポートを入力します。
      3. Username フィールドに、データベースに接続するデフォルトのユーザー名を入力します。
      4. Password フィールドに、デフォルトのユーザーアカウントのパスワードを入力します。
      5. Database フィールドに、データベース名を入力します。
  8. オプション: デフォルトでは、パイプライン定義は Kubernetes リソースとして保存され、バージョン管理、GitOps ワークフロー、OpenShift GitOps または同様のツールとの統合が可能になります。代わりにパイプライン定義を内部データベースに保存するには、Pipeline definition storage セクションの Store pipeline definitions in Kubernetes チェックボックスをオフにします。
  9. オプション: デフォルトでは、キャッシュはパイプラインレベルとタスクレベルの両方で設定可能です。パイプラインサーバーのすべてのパイプラインとタスクのキャッシュを無効にし、パイプラインレベルとタスクレベルのキャッシュ設定をオーバーライドするには、Pipeline caching セクションの Allow caching to be configured per pipeline and task チェックボックスをオフにします。
  10. Configure pipeline server をクリックします。

検証

プロジェクトの Pipelines タブで次の操作を行います。

  • Import pipeline ボタンを使用できます。
  • アクションメニュー () をクリックし、Manage pipeline server configuration をクリックすると、パイプラインサーバーの詳細が表示されます。

1.1.1. 外部 Amazon RDS データベースを使用したパイプラインサーバーの設定

外部の Amazon Relational Database Service (RDS) データベースを使用してパイプラインサーバーを設定するには、認証局 (CA) が発行する証明書を信頼するように OpenShift AI を設定する必要があります。

重要

実稼働パイプラインワークロード用にパイプラインサーバーを設定する場合、Red Hat は外部の MySQL または MariaDB データベースを使用することを推奨します。

前提条件

  • OpenShift クラスターのクラスター管理者権限を持っている。
  • Red Hat OpenShift AI にログインしている。
  • パイプラインサーバーを追加できるデータサイエンスプロジェクトが作成されている。
  • 既存の S3 互換オブジェクトストレージバケットがあり、S3 バケットへの書き込みアクセス権を持つストレージアカウントを設定しています。

手順

  1. パイプラインサーバーを設定する前に、Amazon RDS: AWS リージョン別の証明書バンドル から、データベースが作成されたリージョンの PEM 証明書バンドルをダウンロードします。

    たとえば、データベースが us-east-1 リージョンに作成された場合は、us-east-1-bundle.pem をダウンロードします。

  2. ターミナルウィンドウで、OpenShift AI がデプロイされている OpenShift クラスターにログインします。

    oc login api.<cluster_name>.<cluster_domain>:6443 --web
    Copy to Clipboard Toggle word wrap
  3. 次のコマンドを実行して、現在の OpenShift AI 信頼済み CA 設定を取得し、新しいファイルに保存します。

    oc get dscinitializations.dscinitialization.opendatahub.io default-dsci -o json | jq '.spec.trustedCABundle.customCABundle' > /tmp/my-custom-ca-bundles.crt
    Copy to Clipboard Toggle word wrap
  4. 次のコマンドを実行して、ダウンロードした PEM 証明書バンドルを新しいカスタム CA 設定ファイルに追加します。

    cat us-east-1-bundle.pem >> /tmp/my-custom-ca-bundles.crt
    Copy to Clipboard Toggle word wrap
  5. 次のコマンドを実行して、OpenShift AI の信頼された CA 設定を更新し、新しいカスタム CA 設定ファイルに含まれる、CA 発行の証明書を信頼します。

    oc patch dscinitialization default-dsci --type='json' -p='[{"op":"replace","path":"/spec/trustedCABundle/customCABundle","value":"'"$(awk '{printf "%s\\n", $0}' /tmp/my-custom-ca-bundles.crt)"'"}]'
    Copy to Clipboard Toggle word wrap
  6. パイプラインサーバーの設定 の説明に従って、パイプラインサーバーを設定します。

検証

  • パイプラインサーバーが正常に起動しました。
  • データサイエンスパイプラインをインポートして実行できます。
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2026 Red Hat
トップに戻る