6.4. 동적 가속기 슬라이서 연산자 문제 해결
DAS(Dynamic Accelerator Slicer) 연산자에 문제가 발생하는 경우 다음 문제 해결 단계를 사용하여 문제를 진단하고 해결하세요.
사전 요구 사항
- DAS Operator를 설치했습니다.
- cluster-admin 역할이 있는 사용자로 OpenShift Container Platform 클러스터에 액세스할 수 있습니다.
6.4.1. DAS Operator 구성 요소 디버깅 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
다음 명령을 실행하여 모든 DAS Operator 구성 요소의 상태를 확인하세요.
oc get pods -n das-operator
$ oc get pods -n das-operatorCopy to Clipboard Copied! Toggle word wrap Toggle overflow 출력 예
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 DAS Operator 컨트롤러의 로그를 검사하세요.
oc logs -n das-operator deployment/das-operator
$ oc logs -n das-operator deployment/das-operatorCopy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 웹훅 서버의 로그를 확인하세요.
oc logs -n das-operator deployment/das-operator-webhook
$ oc logs -n das-operator deployment/das-operator-webhookCopy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 스케줄러 플러그인의 로그를 확인하세요.
oc logs -n das-operator deployment/das-scheduler
$ oc logs -n das-operator deployment/das-schedulerCopy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 장치 플러그인 데몬셋의 로그를 확인하세요.
oc logs -n das-operator daemonset/das-daemonset
$ oc logs -n das-operator daemonset/das-daemonsetCopy to Clipboard Copied! Toggle word wrap Toggle overflow
6.4.2. 할당 청구 모니터링 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
다음 명령을 실행하여 활성
AllocationClaim리소스를 검사합니다.oc get allocationclaims -n das-operator
$ oc get allocationclaims -n das-operatorCopy to Clipboard Copied! Toggle word wrap Toggle overflow 출력 예
NAME AGE 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 5m ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 5m
NAME AGE 13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 5m ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 5mCopy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 특정
AllocationClaim에 대한 자세한 정보를 확인하세요.oc get allocationclaims -n das-operator -o yaml
$ oc get allocationclaims -n das-operator -o yamlCopy to Clipboard Copied! Toggle word wrap Toggle overflow 출력 예(잘림)
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 다양한 주의 클레임을 확인하세요.
oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'$ oc get allocationclaims -n das-operator -o jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.status.state}{"\n"}{end}'Copy to Clipboard Copied! Toggle word wrap Toggle overflow 출력 예
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 inUse ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 inUse
13950288-57df-4ab5-82bc-6138f646633e-harpatil000034jma-qh5fm-worker-f-57md9-cuda-vectoradd-0 inUse ce997b60-a0b8-4ea4-9107-cf59b425d049-harpatil000034jma-qh5fm-worker-f-fl4wg-cuda-vectoradd-0 inUseCopy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여
AllocationClaim리소스와 관련된 이벤트를 확인하세요.oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaim
$ oc get events -n das-operator --field-selector involvedObject.kind=AllocationClaimCopy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여
NodeAccelerator리소스를 확인하여 GPU 하드웨어 감지를 확인하세요.oc get nodeaccelerator -n das-operator
$ oc get nodeaccelerator -n das-operatorCopy to Clipboard Copied! Toggle word wrap Toggle overflow 출력 예
NAME AGE harpatil000034jma-qh5fm-worker-f-57md9 96m harpatil000034jma-qh5fm-worker-f-fl4wg 96m
NAME AGE harpatil000034jma-qh5fm-worker-f-57md9 96m harpatil000034jma-qh5fm-worker-f-fl4wg 96mCopy to Clipboard Copied! Toggle word wrap Toggle overflow NodeAccelerator리소스는 DAS 운영자가 감지한 GPU 지원 노드를 나타냅니다.
추가 정보
AllocationClaim 사용자 정의 리소스는 다음 정보를 추적합니다.
- GPU UUID
- GPU 장치의 고유 식별자입니다.
- 슬라이스 위치
- GPU에서 MIG 슬라이스의 위치.
- 포드 참조
- GPU 슬라이스를 요청한 포드입니다.
- 상태
-
클레임의 현재 상태(
준비됨,생성됨또는해제됨).
클레임은 단계적 상태에서 시작하여 모든 요청이 충족되면 생성됨 상태 로 전환됩니다. 포드가 삭제되면 연관된 클레임이 자동으로 정리됩니다.
6.4.3. GPU 장치 가용성 확인 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
GPU 하드웨어가 있는 노드에서 다음 명령을 실행하여 CDI 장치가 생성되었는지 확인합니다.
oc debug node/<node-name>
$ oc debug node/<node-name>Copy to Clipboard Copied! Toggle word wrap Toggle overflow chroot /host ls -l /var/run/cdi/
sh-4.4# chroot /host sh-4.4# ls -l /var/run/cdi/Copy to Clipboard Copied! Toggle word wrap Toggle overflow 다음 명령을 실행하여 NVIDIA GPU Operator 상태를 확인하세요.
oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'$ oc get clusterpolicies.nvidia.com -o jsonpath='{.items[0].status.state}'Copy to Clipboard Copied! Toggle word wrap Toggle overflow 출력에는
'ready'가표시되어야 합니다.
6.4.4. 로그의 자세한 정보 증가 링크 복사링크가 클립보드에 복사되었습니다!
프로세스
더 자세한 디버깅 정보를 얻으려면:
다음 명령을 실행하여
DASOperator리소스를 편집하여 로그의 자세한 내용을 표시합니다.oc edit dasoperator -n das-operator
$ oc edit dasoperator -n das-operatorCopy to Clipboard Copied! Toggle word wrap Toggle overflow operatorLogLevel필드를Debug또는Trace로 설정합니다.spec: operatorLogLevel: Debug
spec: operatorLogLevel: DebugCopy to Clipboard Copied! Toggle word wrap Toggle overflow - 변경 사항을 저장하고 운영자 포드가 더욱 자세한 정보로 다시 시작되는지 확인합니다.
6.4.5. 일반적인 문제 및 해결책 링크 복사링크가 클립보드에 복사되었습니다!
kubernetes/kubernetes#128043 으로 인해, 입장이 실패하면 포드가 UnexpectedAdmissionError 상태가 될 수 있습니다. 배포와 같은 상위 레벨 컨트롤러가 관리하는 Pod는 자동으로 다시 생성됩니다. 하지만, 맨 포드는 oc delete pod 를 사용하여 수동으로 정리해야 합니다. 업스트림 문제가 해결될 때까지 컨트롤러를 사용하는 것이 좋습니다.
전제 조건이 충족되지 않았습니다
DAS Operator가 제대로 시작되지 않거나 작동하지 않는 경우 모든 필수 구성 요소가 설치되었는지 확인하세요.
- 인증 관리자
- 노드 기능 검색(NFD) 연산자
- NVIDIA GPU 운영자