6.4. Dynamic Accelerator Slicer Operator のトラブルシューティング


Dynamic Accelerator Slicer (DAS) Operator で問題が発生した場合は、次のトラブルシューティング手順を使用して問題を診断し、解決してください。

前提条件

  • DAS Operator がインストール済みである。
  • cluster-admin ロールを持つユーザーとして OpenShift Container Platform クラスターにアクセスできる。

6.4.1. DAS Operator コンポーネントのデバッグ

手順

  1. 次のコマンドを実行して、すべての DAS Operator コンポーネントのステータスを確認します。

    $ oc get pods -n das-operator
    Copy to Clipboard Toggle word wrap

    出力例

    NAME                                    READY   STATUS    RESTARTS   AGE
    das-daemonset-6rsfd                     1/1     Running   0          5m16s
    das-daemonset-8qzgf                     1/1     Running   0          5m16s
    das-operator-5946478b47-cjfcp           1/1     Running   0          5m18s
    das-operator-5946478b47-npwmn           1/1     Running   0          5m18s
    das-operator-webhook-59949d4f85-5n9qt   1/1     Running   0          68s
    das-operator-webhook-59949d4f85-nbtdl   1/1     Running   0          68s
    das-scheduler-6cc59dbf96-4r85f          1/1     Running   0          68s
    das-scheduler-6cc59dbf96-bf6ml          1/1     Running   0          68s
    Copy to Clipboard Toggle word wrap

  2. 次のコマンドを実行して、DAS Operator コントローラーのログを検査します。

    $ oc logs -n das-operator deployment/das-operator
    Copy to Clipboard Toggle word wrap
  3. 次のコマンドを実行して、Webhook サーバーのログを確認します。

    $ oc logs -n das-operator deployment/das-operator-webhook
    Copy to Clipboard Toggle word wrap
  4. 次のコマンドを実行して、スケジューラープラグインのログを確認します。

    $ oc logs -n das-operator deployment/das-scheduler
    Copy to Clipboard Toggle word wrap
  5. 次のコマンドを実行して、デバイスプラグイン daemonset のログを確認します。

    $ oc logs -n das-operator daemonset/das-daemonset
    Copy to Clipboard Toggle word wrap

6.4.2. AllocationClaim の監視

手順

  1. 次のコマンドを実行して、アクティブな AllocationClaim リソースを検査します。

    $ oc get allocationclaims -n das-operator
    Copy to Clipboard Toggle word wrap

    出力例

    NAME                                                                                           AGE
    13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0   5m
    ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0   5m
    Copy to Clipboard Toggle word wrap

  2. 次のコマンドを実行して、特定の AllocationClaim に関する詳細情報を表示します。

    $ oc get allocationclaims -n das-operator -o yaml
    Copy to Clipboard Toggle word wrap

    出力サンプル (切り捨て済み)

    apiVersion: inference.redhat.com/v1alpha1
    kind: AllocationClaim
    metadata:
      name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0
      namespace: das-operator
    spec:
      gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0
      migPlacement:
        size: 1
        start: 0
      nodename: harpatil000034jma-qh5fm-worker-f-57md9
      podRef:
        kind: Pod
        name: cuda-vectoradd-f4b84b678-l2m69
        namespace: default
        uid: 13950288-57df-4ab5-82bc-6138f646633e
      profile: 1g.5gb
    status:
      conditions:
      - lastTransitionTime: "2025-08-06T19:28:48Z"
        message: Allocation is inUse
        reason: inUse
        status: "True"
        type: State
      state: inUse
    Copy to Clipboard Toggle word wrap

  3. 次のコマンドを実行して、さまざまな状態のクレームを確認します。

    $ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'
    Copy to Clipboard Toggle word wrap

    出力例

    13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0	inUse
    ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0	inUse
    Copy to Clipboard Toggle word wrap

  4. 次のコマンドを実行して、AllocationClaim リソースに関連するイベントを表示します。

    $ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim
    Copy to Clipboard Toggle word wrap
  5. 次のコマンドを実行して、NodeAccelerator リソースをチェックし、GPU ハードウェアの検出を確認します。

    $ oc get nodeaccelerator -n das-operator
    Copy to Clipboard Toggle word wrap

    出力例

    NAME                                     AGE
    harpatil000034jma-qh5fm-worker-f-57md9   96m
    harpatil000034jma-qh5fm-worker-f-fl4wg   96m
    Copy to Clipboard Toggle word wrap

    NodeAccelerator リソースは、DAS Operator によって検出された GPU 対応ノードを表します。

関連情報

AllocationClaim カスタムリソースは、次の情報を追跡します。

GPU UUID
GPU デバイスの一意の識別子。
スライス位置
GPU 上の MIG スライスの位置。
Pod 参照
GPU スライスを要求した Pod。
状態
クレームの現在の状態 (stagedcreated、または released)。

クレームは staged 状態で開始され、すべての要求が満たされると created に遷移します。Pod が削除されると、関連付けられているクレームは自動的にクリーンアップされます。

6.4.3. GPU デバイスの可用性の確認

手順

  1. GPU ハードウェアが搭載されたノードで、次のコマンドを実行して CDI デバイスが作成されたことを確認します。

    $ oc debug node/<node-name>
    Copy to Clipboard Toggle word wrap
    sh-4.4# chroot /host
    sh-4.4# ls -l /var/run/cdi/
    Copy to Clipboard Toggle word wrap
  2. 次のコマンドを実行して、NVIDIA GPU Operator のステータスを確認します。

    $ oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'
    Copy to Clipboard Toggle word wrap

    出力には ready が表示されるはずです。

6.4.4. ログの詳細レベルを引き上げる

手順

より詳細なデバッグ情報を取得するには、以下を実行します。

  1. 次のコマンドを実行し、DASOperator リソースを編集してログの詳細レベルを引き上げます。

    $ oc edit dasoperator -n das-operator
    Copy to Clipboard Toggle word wrap
  2. operatorLogLevel フィールドを Debug または Trace に設定します。

    spec:
      operatorLogLevel: Debug
    Copy to Clipboard Toggle word wrap
  3. 変更を保存し、再起動した Pod の詳細レベルが上がっていることを確認します。

6.4.5. よくある問題と解決策

Pod が UnexpectedAdmissionError 状態でスタックする

kubernetes/kubernetes#128043 により、アドミッションが失敗すると Pod が UnexpectedAdmissionError 状態になる可能性があります。デプロイメントなどの上位レベルのコントローラーによって管理される Pod は自動的に再作成されます。ただし、ネイキッド Pod は、oc delete pod を使用して手動でクリーンアップする必要があります。アップストリームの問題が解決されるまでは、コントローラーの使用が推奨されます。

前提条件を満たしていない

DAS Operator が起動しない、または正常に機能しない場合は、すべての前提条件がインストールされていることを確認してください。

  • cert-manager
  • Node Feature Discovery (NFD) Operator
  • NVIDIA GPU Operator
トップに戻る
Red Hat logoGithubredditYoutubeTwitter

詳細情報

試用、購入および販売

コミュニティー

Red Hat ドキュメントについて

Red Hat をお使いのお客様が、信頼できるコンテンツが含まれている製品やサービスを活用することで、イノベーションを行い、目標を達成できるようにします。 最新の更新を見る.

多様性を受け入れるオープンソースの強化

Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。このような変更は、段階的に実施される予定です。詳細情報: Red Hat ブログ.

会社概要

Red Hat は、企業がコアとなるデータセンターからネットワークエッジに至るまで、各種プラットフォームや環境全体で作業を簡素化できるように、強化されたソリューションを提供しています。

Theme

© 2025 Red Hat