6.4. Dynamic Accelerator Slicer Operator のトラブルシューティング

6.4.1. DAS Operator コンポーネントのデバッグ
リンクのコピー

手順

次のコマンドを実行して、すべての DAS Operator コンポーネントのステータスを確認します。

oc get pods -n das-operator

$ oc get pods -n das-operator

Copy to Clipboard

Toggle word wrap

出力例

NAME                                    READY   STATUS    RESTARTS   AGE
das-daemonset-6rsfd                     1/1     Running   0          5m16s
das-daemonset-8qzgf                     1/1     Running   0          5m16s
das-operator-5946478b47-cjfcp           1/1     Running   0          5m18s
das-operator-5946478b47-npwmn           1/1     Running   0          5m18s
das-operator-webhook-59949d4f85-5n9qt   1/1     Running   0          68s
das-operator-webhook-59949d4f85-nbtdl   1/1     Running   0          68s
das-scheduler-6cc59dbf96-4r85f          1/1     Running   0          68s
das-scheduler-6cc59dbf96-bf6ml          1/1     Running   0          68s

NAME                                    READY   STATUS    RESTARTS   AGE
das-daemonset-6rsfd                     1/1     Running   0          5m16s
das-daemonset-8qzgf                     1/1     Running   0          5m16s
das-operator-5946478b47-cjfcp           1/1     Running   0          5m18s
das-operator-5946478b47-npwmn           1/1     Running   0          5m18s
das-operator-webhook-59949d4f85-5n9qt   1/1     Running   0          68s
das-operator-webhook-59949d4f85-nbtdl   1/1     Running   0          68s
das-scheduler-6cc59dbf96-4r85f          1/1     Running   0          68s
das-scheduler-6cc59dbf96-bf6ml          1/1     Running   0          68s

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、DAS Operator コントローラーのログを検査します。
```
oc logs -n das-operator deployment/das-operator
```
```
$ oc logs -n das-operator deployment/das-operator
```
Copy to Clipboard Toggle word wrap
次のコマンドを実行して、Webhook サーバーのログを確認します。
```
oc logs -n das-operator deployment/das-operator-webhook
```
```
$ oc logs -n das-operator deployment/das-operator-webhook
```
Copy to Clipboard Toggle word wrap
次のコマンドを実行して、スケジューラープラグインのログを確認します。
```
oc logs -n das-operator deployment/das-scheduler
```
```
$ oc logs -n das-operator deployment/das-scheduler
```
Copy to Clipboard Toggle word wrap
次のコマンドを実行して、デバイスプラグイン daemonset のログを確認します。
```
oc logs -n das-operator daemonset/das-daemonset
```
```
$ oc logs -n das-operator daemonset/das-daemonset
```
Copy to Clipboard Toggle word wrap

6.4.2. AllocationClaim の監視
リンクのコピー

手順

次のコマンドを実行して、アクティブな AllocationClaim リソースを検査します。

oc get allocationclaims -n das-operator

$ oc get allocationclaims -n das-operator

Copy to Clipboard

Toggle word wrap

出力例

NAME                                                                                           AGE
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0   5m
ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0   5m

NAME                                                                                           AGE
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0   5m
ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0   5m

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、特定の AllocationClaim に関する詳細情報を表示します。

oc get allocationclaims -n das-operator -o yaml

$ oc get allocationclaims -n das-operator -o yaml

Copy to Clipboard

Toggle word wrap

出力サンプル (切り捨て済み)

apiVersion: inference.redhat.com/v1alpha1
kind: AllocationClaim
metadata:
  name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0
  namespace: das-operator
spec:
  gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0
  migPlacement:
    size: 1
    start: 0
  nodename: harpatil000034jma-qh5fm-worker-f-57md9
  podRef:
    kind: Pod
    name: cuda-vectoradd-f4b84b678-l2m69
    namespace: default
    uid: 13950288-57df-4ab5-82bc-6138f646633e
  profile: 1g.5gb
status:
  conditions:
  - lastTransitionTime: "2025-08-06T19:28:48Z"
    message: Allocation is inUse
    reason: inUse
    status: "True"
    type: State
  state: inUse

apiVersion: inference.redhat.com/v1alpha1
kind: AllocationClaim
metadata:
  name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0
  namespace: das-operator
spec:
  gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0
  migPlacement:
    size: 1
    start: 0
  nodename: harpatil000034jma-qh5fm-worker-f-57md9
  podRef:
    kind: Pod
    name: cuda-vectoradd-f4b84b678-l2m69
    namespace: default
    uid: 13950288-57df-4ab5-82bc-6138f646633e
  profile: 1g.5gb
status:
  conditions:
  - lastTransitionTime: "2025-08-06T19:28:48Z"
    message: Allocation is inUse
    reason: inUse
    status: "True"
    type: State
  state: inUse

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、さまざまな状態のクレームを確認します。

oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'

$ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'

Copy to Clipboard

Toggle word wrap

出力例

13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0	inUse
ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0	inUse

13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0	inUse
ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0	inUse

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、AllocationClaim リソースに関連するイベントを表示します。

oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim

$ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim

Copy to Clipboard

Toggle word wrap

次のコマンドを実行して、NodeAccelerator リソースをチェックし、GPU ハードウェアの検出を確認します。
```
oc get nodeaccelerator -n das-operator
```
```
$ oc get nodeaccelerator -n das-operator
```
Copy to Clipboard Toggle word wrap
出力例
```
NAME                                     AGE
harpatil000034jma-qh5fm-worker-f-57md9   96m
harpatil000034jma-qh5fm-worker-f-fl4wg   96m
```
```
NAME                                     AGE
harpatil000034jma-qh5fm-worker-f-57md9   96m
harpatil000034jma-qh5fm-worker-f-fl4wg   96m
```
Copy to Clipboard Toggle word wrap
NodeAccelerator リソースは、DAS Operator によって検出された GPU 対応ノードを表します。

関連情報

AllocationClaim カスタムリソースは、次の情報を追跡します。

GPU UUID: GPU デバイスの一意の識別子。
スライス位置: GPU 上の MIG スライスの位置。
Pod 参照: GPU スライスを要求した Pod。
状態: クレームの現在の状態 (staged、created、または released)。

クレームは staged 状態で開始され、すべての要求が満たされると created に遷移します。Pod が削除されると、関連付けられているクレームは自動的にクリーンアップされます。

6.4.3. GPU デバイスの可用性の確認
リンクのコピー

手順

GPU ハードウェアが搭載されたノードで、次のコマンドを実行して CDI デバイスが作成されたことを確認します。
```
oc debug node/<node-name>
```
```
$ oc debug node/<node-name>
```
Copy to Clipboard Toggle word wrap
```
chroot /host
ls -l /var/run/cdi/
```
```
sh-4.4# chroot /host
sh-4.4# ls -l /var/run/cdi/
```
Copy to Clipboard Toggle word wrap
次のコマンドを実行して、NVIDIA GPU Operator のステータスを確認します。
```
oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'
```
```
$ oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'
```
Copy to Clipboard Toggle word wrap
出力には ready が表示されるはずです。

6.4.4. ログの詳細レベルを引き上げる
リンクのコピー

手順

より詳細なデバッグ情報を取得するには、以下を実行します。

次のコマンドを実行し、DASOperator リソースを編集してログの詳細レベルを引き上げます。
```
oc edit dasoperator -n das-operator
```
```
$ oc edit dasoperator -n das-operator
```
Copy to Clipboard Toggle word wrap
operatorLogLevel フィールドを Debug または Trace に設定します。
```
spec:
  operatorLogLevel: Debug
```
```
spec:
  operatorLogLevel: Debug
```
Copy to Clipboard Toggle word wrap
変更を保存し、再起動した Pod の詳細レベルが上がっていることを確認します。

6.4.5. よくある問題と解決策
リンクのコピー

Pod が UnexpectedAdmissionError 状態でスタックする

kubernetes/kubernetes#128043 により、アドミッションが失敗すると Pod が UnexpectedAdmissionError 状態になる可能性があります。デプロイメントなどの上位レベルのコントローラーによって管理される Pod は自動的に再作成されます。ただし、ネイキッド Pod は、oc delete pod を使用して手動でクリーンアップする必要があります。アップストリームの問題が解決されるまでは、コントローラーの使用が推奨されます。

前提条件を満たしていない

DAS Operator が起動しない、または正常に機能しない場合は、すべての前提条件がインストールされていることを確認してください。

cert-manager
Node Feature Discovery (NFD) Operator
NVIDIA GPU Operator

6.4.1. DAS Operator コンポーネントのデバッグ
リンクのコピー

6.4.2. AllocationClaim の監視
リンクのコピー

6.4.3. GPU デバイスの可用性の確認
リンクのコピー

6.4.4. ログの詳細レベルを引き上げる
リンクのコピー

6.4.5. よくある問題と解決策
リンクのコピー

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

6.4. Dynamic Accelerator Slicer Operator のトラブルシューティング

6.4.1. DAS Operator コンポーネントのデバッグリンクのコピーリンクがクリップボードにコピーされました!

6.4.2. AllocationClaim の監視リンクのコピーリンクがクリップボードにコピーされました!

6.4.3. GPU デバイスの可用性の確認リンクのコピーリンクがクリップボードにコピーされました!

6.4.4. ログの詳細レベルを引き上げるリンクのコピーリンクがクリップボードにコピーされました!

6.4.5. よくある問題と解決策リンクのコピーリンクがクリップボードにコピーされました!

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

多様性を受け入れるオープンソースの強化

会社概要

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

6.4.1. DAS Operator コンポーネントのデバッグ
リンクのコピー

6.4.2. AllocationClaim の監視
リンクのコピー

6.4.3. GPU デバイスの可用性の確認
リンクのコピー

6.4.4. ログの詳細レベルを引き上げる
リンクのコピー

6.4.5. よくある問題と解決策
リンクのコピー