6.4. Dynamic Accelerator Slicer Operator のトラブルシューティング
Dynamic Accelerator Slicer (DAS) Operator で問題が発生した場合は、次のトラブルシューティング手順を使用して問題を診断し、解決してください。
前提条件
- DAS Operator がインストール済みである。
- cluster-admin ロールを持つユーザーとして OpenShift Container Platform クラスターにアクセスできる。
6.4.1. DAS Operator コンポーネントのデバッグ リンクのコピーリンクがクリップボードにコピーされました!
手順
次のコマンドを実行して、すべての DAS Operator コンポーネントのステータスを確認します。
$ oc get pods -n das-operator出力例
NAME READY STATUS RESTARTS AGE das-daemonset-6rsfd 1/1 Running 0 5m16s das-daemonset-8qzgf 1/1 Running 0 5m16s das-operator-5946478b47-cjfcp 1/1 Running 0 5m18s das-operator-5946478b47-npwmn 1/1 Running 0 5m18s das-operator-webhook-59949d4f85-5n9qt 1/1 Running 0 68s das-operator-webhook-59949d4f85-nbtdl 1/1 Running 0 68s das-scheduler-6cc59dbf96-4r85f 1/1 Running 0 68s das-scheduler-6cc59dbf96-bf6ml 1/1 Running 0 68s次のコマンドを実行して、DAS Operator コントローラーのログを検査します。
$ oc logs -n das-operator deployment/das-operator次のコマンドを実行して、Webhook サーバーのログを確認します。
$ oc logs -n das-operator deployment/das-operator-webhook次のコマンドを実行して、スケジューラープラグインのログを確認します。
$ oc logs -n das-operator deployment/das-scheduler次のコマンドを実行して、デバイスプラグイン daemonset のログを確認します。
$ oc logs -n das-operator daemonset/das-daemonset
6.4.2. AllocationClaim の監視 リンクのコピーリンクがクリップボードにコピーされました!
手順
次のコマンドを実行して、アクティブな
AllocationClaimリソースを検査します。$ oc get allocationclaims -n das-operator出力例
NAME AGE 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 5m ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 5m次のコマンドを実行して、特定の
AllocationClaimに関する詳細情報を表示します。$ oc get allocationclaims -n das-operator -o yaml出力サンプル (切り捨て済み)
apiVersion: inference.redhat.com/v1alpha1 kind: AllocationClaim metadata: name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 namespace: das-operator spec: gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0 migPlacement: size: 1 start: 0 nodename: harpatil000034jma-qh5fm-worker-f-57md9 podRef: kind: Pod name: cuda-vectoradd-f4b84b678-l2m69 namespace: default uid: 13950288-57df-4ab5-82bc-6138f646633e profile: 1g.5gb status: conditions: - lastTransitionTime: "2025-08-06T19:28:48Z" message: Allocation is inUse reason: inUse status: "True" type: State state: inUse次のコマンドを実行して、さまざまな状態のクレームを確認します。
$ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'出力例
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 inUse ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 inUse次のコマンドを実行して、
AllocationClaimリソースに関連するイベントを表示します。$ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim次のコマンドを実行して、
NodeAcceleratorリソースをチェックし、GPU ハードウェアの検出を確認します。$ oc get nodeaccelerator -n das-operator出力例
NAME AGE harpatil000034jma-qh5fm-worker-f-57md9 96m harpatil000034jma-qh5fm-worker-f-fl4wg 96mNodeAcceleratorリソースは、DAS Operator によって検出された GPU 対応ノードを表します。
関連情報
AllocationClaim カスタムリソースは、次の情報を追跡します。
- GPU UUID
- GPU デバイスの一意の識別子。
- スライス位置
- GPU 上の MIG スライスの位置。
- Pod 参照
- GPU スライスを要求した Pod。
- 状態
-
クレームの現在の状態 (
staged、created、またはreleased)。
クレームは staged 状態で開始され、すべての要求が満たされると created に遷移します。Pod が削除されると、関連付けられているクレームは自動的にクリーンアップされます。
6.4.3. GPU デバイスの可用性の確認 リンクのコピーリンクがクリップボードにコピーされました!
手順
GPU ハードウェアが搭載されたノードで、次のコマンドを実行して CDI デバイスが作成されたことを確認します。
$ oc debug node/<node-name>sh-4.4# chroot /host sh-4.4# ls -l /var/run/cdi/次のコマンドを実行して、NVIDIA GPU Operator のステータスを確認します。
$ oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'出力には
readyが表示されるはずです。
6.4.4. ログの詳細レベルを引き上げる リンクのコピーリンクがクリップボードにコピーされました!
手順
より詳細なデバッグ情報を取得するには、以下を実行します。
次のコマンドを実行し、
DASOperatorリソースを編集してログの詳細レベルを引き上げます。$ oc edit dasoperator -n das-operatoroperatorLogLevelフィールドをDebugまたはTraceに設定します。spec: operatorLogLevel: Debug- 変更を保存し、再起動した Pod の詳細レベルが上がっていることを確認します。
6.4.5. よくある問題と解決策 リンクのコピーリンクがクリップボードにコピーされました!
kubernetes/kubernetes#128043 により、アドミッションが失敗すると Pod が UnexpectedAdmissionError 状態になる可能性があります。デプロイメントなどの上位レベルのコントローラーによって管理される Pod は自動的に再作成されます。ただし、ネイキッド Pod は、oc delete pod を使用して手動でクリーンアップする必要があります。アップストリームの問題が解決されるまでは、コントローラーの使用が推奨されます。
前提条件を満たしていない
DAS Operator が起動しない、または正常に機能しない場合は、すべての前提条件がインストールされていることを確認してください。
- cert-manager
- Node Feature Discovery (NFD) Operator
- NVIDIA GPU Operator