6.4. 동적 가속기 슬라이서 연산자 문제 해결


DAS(Dynamic Accelerator Slicer) 연산자에 문제가 발생하는 경우 다음 문제 해결 단계를 사용하여 문제를 진단하고 해결하세요.

사전 요구 사항

  • DAS Operator를 설치했습니다.
  • cluster-admin 역할이 있는 사용자로 OpenShift Container Platform 클러스터에 액세스할 수 있습니다.

6.4.1. DAS Operator 구성 요소 디버깅

프로세스

  1. 다음 명령을 실행하여 모든 DAS Operator 구성 요소의 상태를 확인하세요.

    $ oc get pods -n das-operator
    Copy to Clipboard Toggle word wrap

    출력 예

    NAME                                    READY   STATUS    RESTARTS   AGE
    das-daemonset-6rsfd                     1/1     Running   0          5m16s
    das-daemonset-8qzgf                     1/1     Running   0          5m16s
    das-operator-5946478b47-cjfcp           1/1     Running   0          5m18s
    das-operator-5946478b47-npwmn           1/1     Running   0          5m18s
    das-operator-webhook-59949d4f85-5n9qt   1/1     Running   0          68s
    das-operator-webhook-59949d4f85-nbtdl   1/1     Running   0          68s
    das-scheduler-6cc59dbf96-4r85f          1/1     Running   0          68s
    das-scheduler-6cc59dbf96-bf6ml          1/1     Running   0          68s
    Copy to Clipboard Toggle word wrap

  2. 다음 명령을 실행하여 DAS Operator 컨트롤러의 로그를 검사하세요.

    $ oc logs -n das-operator deployment/das-operator
    Copy to Clipboard Toggle word wrap
  3. 다음 명령을 실행하여 웹훅 서버의 로그를 확인하세요.

    $ oc logs -n das-operator deployment/das-operator-webhook
    Copy to Clipboard Toggle word wrap
  4. 다음 명령을 실행하여 스케줄러 플러그인의 로그를 확인하세요.

    $ oc logs -n das-operator deployment/das-scheduler
    Copy to Clipboard Toggle word wrap
  5. 다음 명령을 실행하여 장치 플러그인 데몬셋의 로그를 확인하세요.

    $ oc logs -n das-operator daemonset/das-daemonset
    Copy to Clipboard Toggle word wrap

6.4.2. 할당 청구 모니터링

프로세스

  1. 다음 명령을 실행하여 활성 AllocationClaim 리소스를 검사합니다.

    $ oc get allocationclaims -n das-operator
    Copy to Clipboard Toggle word wrap

    출력 예

    NAME                                                                                           AGE
    13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0   5m
    ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0   5m
    Copy to Clipboard Toggle word wrap

  2. 다음 명령을 실행하여 특정 AllocationClaim 에 대한 자세한 정보를 확인하세요.

    $ oc get allocationclaims -n das-operator -o yaml
    Copy to Clipboard Toggle word wrap

    출력 예(잘림)

    apiVersion: inference.redhat.com/v1alpha1
    kind: AllocationClaim
    metadata:
      name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0
      namespace: das-operator
    spec:
      gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0
      migPlacement:
        size: 1
        start: 0
      nodename: harpatil000034jma-qh5fm-worker-f-57md9
      podRef:
        kind: Pod
        name: cuda-vectoradd-f4b84b678-l2m69
        namespace: default
        uid: 13950288-57df-4ab5-82bc-6138f646633e
      profile: 1g.5gb
    status:
      conditions:
      - lastTransitionTime: "2025-08-06T19:28:48Z"
        message: Allocation is inUse
        reason: inUse
        status: "True"
        type: State
      state: inUse
    Copy to Clipboard Toggle word wrap

  3. 다음 명령을 실행하여 다양한 주의 클레임을 확인하세요.

    $ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'
    Copy to Clipboard Toggle word wrap

    출력 예

    13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0	inUse
    ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0	inUse
    Copy to Clipboard Toggle word wrap

  4. 다음 명령을 실행하여 AllocationClaim 리소스와 관련된 이벤트를 확인하세요.

    $ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim
    Copy to Clipboard Toggle word wrap
  5. 다음 명령을 실행하여 NodeAccelerator 리소스를 확인하여 GPU 하드웨어 감지를 확인하세요.

    $ oc get nodeaccelerator -n das-operator
    Copy to Clipboard Toggle word wrap

    출력 예

    NAME                                     AGE
    harpatil000034jma-qh5fm-worker-f-57md9   96m
    harpatil000034jma-qh5fm-worker-f-fl4wg   96m
    Copy to Clipboard Toggle word wrap

    NodeAccelerator 리소스는 DAS 운영자가 감지한 GPU 지원 노드를 나타냅니다.

추가 정보

AllocationClaim 사용자 정의 리소스는 다음 정보를 추적합니다.

GPU UUID
GPU 장치의 고유 식별자입니다.
슬라이스 위치
GPU에서 MIG 슬라이스의 위치.
포드 참조
GPU 슬라이스를 요청한 포드입니다.
상태
클레임의 현재 상태( 준비됨 , 생성됨 또는 해제됨 ).

클레임은 단계적 상태에서 시작하여 모든 요청이 충족되면 생성됨 상태 로 전환됩니다. 포드가 삭제되면 연관된 클레임이 자동으로 정리됩니다.

6.4.3. GPU 장치 가용성 확인

프로세스

  1. GPU 하드웨어가 있는 노드에서 다음 명령을 실행하여 CDI 장치가 생성되었는지 확인합니다.

    $ oc debug node/<node-name>
    Copy to Clipboard Toggle word wrap
    sh-4.4# chroot /host
    sh-4.4# ls -l /var/run/cdi/
    Copy to Clipboard Toggle word wrap
  2. 다음 명령을 실행하여 NVIDIA GPU Operator 상태를 확인하세요.

    $ oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'
    Copy to Clipboard Toggle word wrap

    출력에는 'ready'가 표시되어야 합니다.

6.4.4. 로그의 자세한 정보 증가

프로세스

더 자세한 디버깅 정보를 얻으려면:

  1. 다음 명령을 실행하여 DASOperator 리소스를 편집하여 로그의 자세한 내용을 표시합니다.

    $ oc edit dasoperator -n das-operator
    Copy to Clipboard Toggle word wrap
  2. operatorLogLevel 필드를 Debug 또는 Trace 로 설정합니다.

    spec:
      operatorLogLevel: Debug
    Copy to Clipboard Toggle word wrap
  3. 변경 사항을 저장하고 운영자 포드가 더욱 자세한 정보로 다시 시작되는지 확인합니다.

6.4.5. 일반적인 문제 및 해결책

Pod가 UnexpectedAdmissionError 상태에 갇힘

kubernetes/kubernetes#128043 으로 인해, 입장이 실패하면 포드가 UnexpectedAdmissionError 상태가 될 수 있습니다. 배포와 같은 상위 레벨 컨트롤러가 관리하는 Pod는 자동으로 다시 생성됩니다. 하지만, 맨 포드는 oc delete pod 를 사용하여 수동으로 정리해야 합니다. 업스트림 문제가 해결될 때까지 컨트롤러를 사용하는 것이 좋습니다.

전제 조건이 충족되지 않았습니다

DAS Operator가 제대로 시작되지 않거나 작동하지 않는 경우 모든 필수 구성 요소가 설치되었는지 확인하세요.

  • 인증 관리자
  • 노드 기능 검색(NFD) 연산자
  • NVIDIA GPU 운영자
맨 위로 이동
Red Hat logoGithubredditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다. 최신 업데이트를 확인하세요.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

Theme

© 2025 Red Hat