7.10. 비정상 차단 노드 문제 해결
7.10.1. ODFRBDClientBlocked
의미 |
이 경고는 쿠버네티스 클러스터 내의 특정 노드에서 RADOS Block Device(RBD) 클라이언트가 Ceph에 의해 차단될 수 있음을 나타냅니다. blocklisting은 |
보안 등급 | 높음 |
진단
RBD 클라이언트의 차단 목록은 네트워크 또는 클러스터 속도 저하와 같은 여러 요인으로 인해 발생할 수 있습니다. 경우에 따라 3개의 연속 클라이언트(워크로드, 미러 데몬, manager/scheduler) 간의 독점 잠금 경합이 블록 목록으로 이어질 수 있습니다.
완화 방법
- 블록 목록에 있는 노드 테인트: Kubernetes에서 Pod 제거를 다른 노드로 트리거하기 위해 차단 목록에 있는 노드를 테인트하는 것이 좋습니다. 이 접근 방식은 마운트 해제 / 매핑되지 않은 프로세스가 정상적으로 진행된다는 가정에 따라 달라집니다. Pod가 성공적으로 제거되면 blocklisted 노드를tainted 상태로 설정하여 블록 목록을 삭제할 수 있습니다. 그런 다음 Pod를 오염되지 않은 노드로 이동할 수 있습니다.
- 블록 목록에 있는 노드 재부팅: 노드에 테인트하고 Pod를 제거해도 차단 목록에 있는 노드가 해결되지 않으면 차단된 노드를 재부팅할 수 있습니다. 이 단계는 블록 목록을 유발하는 모든 근본적인 문제를 완화하고 정상적인 기능을 복원하는 데 도움이 될 수 있습니다.
블록 목록 문제를 신속하게 조사하고 해결하는 것은 스토리지 클러스터에 대한 추가 영향을 방지하기 위해 필요합니다.