第6章 ユーザーの分散ワークロードに関する一般的な問題のトラブルシューティング
Red Hat OpenShift AI で分散ワークロードに関連するエラーが発生した場合は、このセクションを読んで、問題の原因と解決方法を理解してください。
問題がこのドキュメントまたはリリースノートに記載されていない場合は、Red Hat サポートにお問い合わせください。
6.1. Ray クラスターが一時停止状態である リンクのコピーリンクがクリップボードにコピーされました!
リンクのコピーリンクがクリップボードにコピーされました!
問題
クラスターキュー設定で指定されたリソースクォータが不十分であるか、リソースフレーバーがまだ作成されていない可能性があります。
診断
Ray クラスターのヘッド Pod またはワーカー Pod が一時停止状態のままです。
解決方法
- OpenShift Console で、Project リストからプロジェクトを選択します。
ワークロードリソースを確認します。
- Search をクリックし、Resources リストから Workload を選択します。
- Ray クラスターリソースで作成されるワークロードリソースを選択し、YAML タブをクリックします。
次の例に示すように、一時停止状態の理由を示す
status.conditions.message
フィールドのテキストを確認します。status: conditions: - lastTransitionTime: '2024-05-29T13:05:09Z' message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
status: conditions: - lastTransitionTime: '2024-05-29T13:05:09Z' message: 'couldn''t assign flavors to pod set small-group-jobtest12: insufficient quota for nvidia.com/gpu in flavor default-flavor in ClusterQueue'
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
Ray クラスターリソースを確認します。
- Search をクリックし、Resources リストから RayCluster を選択します。
- Ray クラスターリソースを選択し、YAML タブをクリックします。
-
status.conditions.message
フィールドのテキストを確認します。
クラスターキューリソースを確認します。
- Search をクリックし、Resources リストから ClusterQueue を選択します。
- クラスターキューの設定をチェックして、要求したリソースがプロジェクトに定義されている制限内であることを確認します。
- 要求するリソースを減らすか、管理者に連絡してリソースを追加するように依頼します。