第6章 ユーザーの分散ワークロードに関する一般的な問題のトラブルシューティング


Red Hat OpenShift AI で分散ワークロードに関連するエラーが発生した場合は、このセクションを読んで、問題の原因と解決方法を理解してください。

問題がこのドキュメントまたはリリースノートに記載されていない場合は、Red Hat サポートにお問い合わせください。

6.1. Ray クラスターが一時停止状態である

問題

クラスターキュー設定で指定されたリソースクォータが不十分であるか、リソースフレーバーがまだ作成されていない可能性があります。

診断

Ray クラスターのヘッド Pod またはワーカー Pod が一時停止状態のままです。

解決方法

  1. OpenShift Console で、Project リストからプロジェクトを選択します。
  2. ワークロードリソースを確認します。

    1. Search をクリックし、Resources リストから Workload を選択します。
    2. Ray クラスターリソースで作成されるワークロードリソースを選択し、YAML タブをクリックします。
    3. 次の例に示すように、一時停止状態の理由を示す status.conditions.message フィールドのテキストを確認します。

      status:
       conditions:
         - lastTransitionTime: '2024-05-29T13:05:09Z'
           message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
      Copy to Clipboard Toggle word wrap
  3. Ray クラスターリソースを確認します。

    1. Search をクリックし、Resources リストから RayCluster を選択します。
    2. Ray クラスターリソースを選択し、YAML タブをクリックします。
    3. status.conditions.message フィールドのテキストを確認します。
  4. クラスターキューリソースを確認します。

    1. Search をクリックし、Resources リストから ClusterQueue を選択します。
    2. クラスターキューの設定をチェックして、要求したリソースがプロジェクトに定義されている制限内であることを確認します。
    3. 要求するリソースを減らすか、管理者に連絡してリソースを追加するように依頼します。
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat