26장. Node Problem Detector
26.1. 개요
Node Problem Detector는 특정 문제를 찾고 이러한 문제를 API 서버에 보고하여 노드의 상태를 모니터링합니다. 판정은 각 노드에서 데몬 세트로 실행됩니다.
Node Problem Detector는 기술 프리뷰 기능 전용입니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원하지 않으며, 기능상 완전하지 않을 수 있어 프로덕션에 사용하지 않는 것이 좋습니다. 이러한 기능을 사용하면 향후 제품 기능을 조기에 이용할 수 있어 개발 과정에서 고객이 기능을 테스트하고 피드백을 제공할 수 있습니다.
Red Hat 기술 프리뷰 기능 지원 범위에 대한 자세한 내용은 https://access.redhat.com/support/offerings/techpreview/를 참조하십시오.
Node Problem Detector는 시스템 로그를 읽고 특정 항목을 감시하고 이러한 문제를 컨트롤 플레인에 표시합니다. 이 경우 oc get node 및
와 같은 OpenShift Container Platform 명령을 사용하여 볼 수 있습니다. 그런 다음 OpenShift Container Platform 로그 모니터링 과 같이 이러한 문제를 적절하게 수정하거나 선택한 툴을 사용하여 메시지를 캡처할 수 있습니다. 감지된 문제는 다음 카테고리 중 하나에 포함될 수 있습니다.
oc get
event
-
NodeCondition
: Pod에서 노드를 사용할 수 없게 만드는 영구적 문제입니다. 호스트가 재부팅될 때까지 노드 조건이 지워지지 않습니다. -
이벤트
: 노드에 미치는 영향이 제한되지만 정보를 제공하는 임시 문제입니다.
노드 문제 탐지기에서 다음을 감지할 수 있습니다.
컨테이너 런타임 문제:
- 응답하지 않는 런타임 데몬
하드웨어 문제:
- bad CPU
- 잘못된 메모리
- 잘못된 디스크
커널 문제:
- 커널 교착 상태
- 손상된 파일 시스템
- 응답하지 않는 런타임 데몬
인프라 데몬 문제:
- NTP 서비스 중단