9.5. 管理者向けの分散ワークロードに関する一般的な問題のトラブルシューティング


Red Hat OpenShift AI で分散ワークロードに関連するエラーが発生した場合は、このセクションを読んで、問題の原因と解決方法を理解してください。

問題がこのドキュメントまたはリリースノートに記載されていない場合は、Red Hat サポートにお問い合わせください。

9.5.1. Ray クラスターが一時停止状態である

問題

クラスターキュー設定で指定されたリソースクォータが不十分であるか、リソースフレーバーがまだ作成されていない可能性があります。

診断

Ray クラスターのヘッド Pod またはワーカー Pod が一時停止状態のままです。RayCluster リソースで作成された Workload リソースのステータスを確認します。status.conditions.message フィールドには、次の例に示すように、一時停止状態の理由が示されます。

status:
 conditions:
   - lastTransitionTime: '2024-05-29T13:05:09Z'
     message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
Copy to Clipboard Toggle word wrap

解決方法

  1. 次のようにして、リソースフレーバーが作成されたかどうかを確認します。

    1. OpenShift コンソールで、Project リストからユーザーのプロジェクトを選択します。
    2. Home Search をクリックし、Resources リストから ResourceFlavor を選択します。
    3. 必要に応じて、リソースフレーバーを作成します。
  2. コード内のクラスターキュー設定をチェックして、要求されたリソースがプロジェクトに定義されている制限内であることを確認します。
  3. 必要に応じて、リソースクォータを増やします。

リソースフレーバーとクォータの設定に関する詳細は、分散ワークロードのクォータ管理の設定 を参照してください。

9.5.2. Ray クラスターが失敗状態である

問題

リソースが不足している可能性があります。

診断

Ray クラスターのヘッド Pod またはワーカー Pod が実行されていません。Ray クラスターが作成されると、最初に failed 状態になります。この失敗状態は通常、調整プロセスが完了し、Ray クラスター Pod が実行されると解決されます。

解決方法

失敗状態が続く場合は、次の手順を実行します。

  1. OpenShift コンソールで、Project リストからユーザーのプロジェクトを選択します。
  2. Workloads Pods をクリックします。
  3. Pod 名をクリックすると、Pod の詳細ページが開きます。
  4. Events タブをクリックし、Pod イベントを確認して問題の原因を特定します。
  5. RayCluster リソースで作成された Workload リソースのステータスを確認します。status.conditions.message フィールドには、失敗した状態の理由が示されます。

9.5.3. CodeFlare Operator の "failed to call webhook" エラーメッセージが表示される

問題

ユーザーが cluster.apply() コマンドを実行すると、次のエラーが表示されます。

ApiException: (500)
Reason: Internal Server Error
HTTP response body: {"kind":"Status","apiVersion":"v1","metadata":{},"status":"Failure","message":"Internal error occurred: failed calling webhook \"mraycluster.ray.openshift.ai\": failed to call webhook: Post \"https://codeflare-operator-webhook-service.redhat-ods-applications.svc:443/mutate-ray-io-v1-raycluster?timeout=10s\": no endpoints available for service \"codeflare-operator-webhook-service\"","reason":"InternalError","details":{"causes":[{"message":"failed calling webhook \"mraycluster.ray.openshift.ai\": failed to call webhook: Post \"https://codeflare-operator-webhook-service.redhat-ods-applications.svc:443/mutate-ray-io-v1-raycluster?timeout=10s\": no endpoints available for service \"codeflare-operator-webhook-service\""}]},"code":500}
Copy to Clipboard Toggle word wrap

診断

CodeFlare Operator Pod が実行されていない可能性があります。

解決方法

  1. OpenShift コンソールで、Project リストからユーザーのプロジェクトを選択します。
  2. Workloads Pods をクリックします。
  3. CodeFlare Operator Pod が実行されていることを確認します。必要に応じて、CodeFlare Operator Pod を再起動します。
  4. 次の例に示すように、CodeFlare Operator Pod のログを確認して、Webhook サーバーが機能していることを確認します。

    INFO	controller-runtime.webhook	  Serving webhook server	{"host": "", "port": 9443}
    Copy to Clipboard Toggle word wrap

9.5.4. Ray クラスターが起動しない

問題

cluster.apply() コマンドを実行した後、cluster.details() コマンドまたは cluster.status() コマンドのいずれかを実行すると、Ray Cluster は Ready ステータスに変わることなく、Starting ステータスのままになります。Pod は作成されません。

診断

RayCluster リソースで作成された Workload リソースのステータスを確認します。status.conditions.message フィールドには、開始 状態のままである理由が示されます。同様に、RayCluster リソースの status.conditions.message フィールドを確認します。

解決方法

  1. OpenShift コンソールで、Project リストからユーザーのプロジェクトを選択します。
  2. Workloads Pods をクリックします。
  3. KubeRay Pod が実行されていることを確認します。必要に応じて KubeRay Pod を再起動します。
  4. KubeRay Pod のログを確認してエラーを特定します。

9.5.5. Ray クラスターを作成したり、ジョブを送信したりできない

問題

cluster.apply() コマンドを実行すると、次のテキストのようなエラーが表示されます。

RuntimeError: Failed to get RayCluster CustomResourceDefinition: (403)
Reason: Forbidden
HTTP response body: {"kind":"Status","apiVersion":"v1","metadata":{},"status":"Failure","message":"rayclusters.ray.io is forbidden: User \"system:serviceaccount:regularuser-project:regularuser-workbench\" cannot list resource \"rayclusters\" in API group \"ray.io\" in the namespace \"regularuser-project\"","reason":"Forbidden","details":{"group":"ray.io","kind":"rayclusters"},"code":403}
Copy to Clipboard Toggle word wrap

診断

ノートブックコードの TokenAuthentication セクションに正しい OpenShift ログイン認証情報が指定されていません。

解決方法

  1. 次のように、正しい OpenShift ログイン認証情報を特定して指定するように推奨します。

    1. OpenShift コンソールのヘッダーで、ユーザー名をクリックし、ログインコマンドのコピー をクリックします。
    2. 開いた新しいタブから、認証情報を使用するユーザーとしてログインします。
    3. Display Token をクリックします。
    4. Log in with this token セクションから、token および server の値をコピーします。
    5. ノートブックコードで、コピーした tokenserver の値を以下のように指定します。

      auth = TokenAuthentication(
          token = "<token>",
          server = "<server>",
          skip_tls=False
      )
      auth.login()
      Copy to Clipboard Toggle word wrap
  2. ユーザーに適切な権限があり、rhods-users グループに属していることを確認します。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat