6.4. 동적 가속기 슬라이서 연산자 문제 해결
DAS(Dynamic Accelerator Slicer) 연산자에 문제가 발생하는 경우 다음 문제 해결 단계를 사용하여 문제를 진단하고 해결하세요.
사전 요구 사항
- DAS Operator를 설치했습니다.
- cluster-admin 역할이 있는 사용자로 OpenShift Container Platform 클러스터에 액세스할 수 있습니다.
6.4.1. DAS Operator 구성 요소 디버깅 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
다음 명령을 실행하여 모든 DAS Operator 구성 요소의 상태를 확인하세요.
$ oc get pods -n das-operator출력 예
NAME READY STATUS RESTARTS AGE das-daemonset-6rsfd 1/1 Running 0 5m16s das-daemonset-8qzgf 1/1 Running 0 5m16s das-operator-5946478b47-cjfcp 1/1 Running 0 5m18s das-operator-5946478b47-npwmn 1/1 Running 0 5m18s das-operator-webhook-59949d4f85-5n9qt 1/1 Running 0 68s das-operator-webhook-59949d4f85-nbtdl 1/1 Running 0 68s das-scheduler-6cc59dbf96-4r85f 1/1 Running 0 68s das-scheduler-6cc59dbf96-bf6ml 1/1 Running 0 68s다음 명령을 실행하여 DAS Operator 컨트롤러의 로그를 검사하세요.
$ oc logs -n das-operator deployment/das-operator다음 명령을 실행하여 웹훅 서버의 로그를 확인하세요.
$ oc logs -n das-operator deployment/das-operator-webhook다음 명령을 실행하여 스케줄러 플러그인의 로그를 확인하세요.
$ oc logs -n das-operator deployment/das-scheduler다음 명령을 실행하여 장치 플러그인 데몬셋의 로그를 확인하세요.
$ oc logs -n das-operator daemonset/das-daemonset
6.4.2. 할당 청구 모니터링 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
다음 명령을 실행하여 활성
AllocationClaim리소스를 검사합니다.$ oc get allocationclaims -n das-operator출력 예
NAME AGE 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 5m ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 5m다음 명령을 실행하여 특정
AllocationClaim에 대한 자세한 정보를 확인하세요.$ oc get allocationclaims -n das-operator -o yaml출력 예(잘림)
apiVersion: inference.redhat.com/v1alpha1 kind: AllocationClaim metadata: name: 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 namespace: das-operator spec: gpuUUID: GPU-9003fd9c-1ad1-c935-d8cd-d1ae69ef17c0 migPlacement: size: 1 start: 0 nodename: harpatil000034jma-qh5fm-worker-f-57md9 podRef: kind: Pod name: cuda-vectoradd-f4b84b678-l2m69 namespace: default uid: 13950288-57df-4ab5-82bc-6138f646633e profile: 1g.5gb status: conditions: - lastTransitionTime: "2025-08-06T19:28:48Z" message: Allocation is inUse reason: inUse status: "True" type: State state: inUse다음 명령을 실행하여 다양한 주의 클레임을 확인하세요.
$ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'출력 예
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 inUse ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 inUse다음 명령을 실행하여
AllocationClaim리소스와 관련된 이벤트를 확인하세요.$ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim다음 명령을 실행하여
NodeAccelerator리소스를 확인하여 GPU 하드웨어 감지를 확인하세요.$ oc get nodeaccelerator -n das-operator출력 예
NAME AGE harpatil000034jma-qh5fm-worker-f-57md9 96m harpatil000034jma-qh5fm-worker-f-fl4wg 96mNodeAccelerator리소스는 DAS 운영자가 감지한 GPU 지원 노드를 나타냅니다.
추가 정보
AllocationClaim 사용자 정의 리소스는 다음 정보를 추적합니다.
- GPU UUID
- GPU 장치의 고유 식별자입니다.
- 슬라이스 위치
- GPU에서 MIG 슬라이스의 위치.
- 포드 참조
- GPU 슬라이스를 요청한 포드입니다.
- 상태
-
클레임의 현재 상태(
준비됨,생성됨또는해제됨).
클레임은 단계적 상태에서 시작하여 모든 요청이 충족되면 생성됨 상태 로 전환됩니다. 포드가 삭제되면 연관된 클레임이 자동으로 정리됩니다.
6.4.3. GPU 장치 가용성 확인 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
GPU 하드웨어가 있는 노드에서 다음 명령을 실행하여 CDI 장치가 생성되었는지 확인합니다.
$ oc debug node/<node-name>sh-4.4# chroot /host sh-4.4# ls -l /var/run/cdi/다음 명령을 실행하여 NVIDIA GPU Operator 상태를 확인하세요.
$ oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'출력에는
'ready'가표시되어야 합니다.
6.4.4. 로그의 자세한 정보 증가 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
더 자세한 디버깅 정보를 얻으려면:
다음 명령을 실행하여
DASOperator리소스를 편집하여 로그의 자세한 내용을 표시합니다.$ oc edit dasoperator -n das-operatoroperatorLogLevel필드를Debug또는Trace로 설정합니다.spec: operatorLogLevel: Debug- 변경 사항을 저장하고 운영자 포드가 더욱 자세한 정보로 다시 시작되는지 확인합니다.
6.4.5. 일반적인 문제 및 해결책 링크 복사링크가 클립보드에 복사되었습니다!
kubernetes/kubernetes#128043 으로 인해, 입장이 실패하면 포드가 UnexpectedAdmissionError 상태가 될 수 있습니다. 배포와 같은 상위 레벨 컨트롤러가 관리하는 Pod는 자동으로 다시 생성됩니다. 하지만, 맨 포드는 oc delete pod 를 사용하여 수동으로 정리해야 합니다. 업스트림 문제가 해결될 때까지 컨트롤러를 사용하는 것이 좋습니다.
전제 조건이 충족되지 않았습니다
DAS Operator가 제대로 시작되지 않거나 작동하지 않는 경우 모든 필수 구성 요소가 설치되었는지 확인하세요.
- 인증 관리자
- 노드 기능 검색(NFD) 연산자
- NVIDIA GPU 운영자