9.12. 노드 차단이 무작위로 발생
노드가 무작위로 차단되는 경우 다음 사항을 확인하십시오.
- 차단 장치의 근본적인 문제는 항상 노드가 토큰을 분실하는 것입니다. 이는 다른 클러스터와의 통신을 상실하여 하트비트 전송이 중지됨을 의미합니다.
- 지정된 토큰 간격 내에서 하트 비트를 시스템에 반환하지 않는 경우 모두 차단될 수 있습니다. 기본값으로 토큰 간격은 10초입니다. 이는 원하는 값 (밀리토 단위)을
cluster.conf
파일에 있는 totem 태그의 토큰 매개변수에 추가하여 지정할 수 있습니다. (예: 30 초의 경우totem token="30000"
을 설정) - 네트워크가 예상하는데로 정상적으로 작동하는지 확인합니다.
- 인터 노드 통신에 클러스터가 사용하는 인터페이스가 0, 1, 2 이외의 본딩 모드를 사용하지 않도록 합니다. (본딩 모드 0 및 2는 Red Hat Enterprise Linux 6.4에서 지원됩니다.)
- 시스템이 "freezing" 또는 커널 패닉을 일으키고 있는지를 확인하기 위해 측정합니다.
kdump
유틸리티를 설정하고 차단 장치 중 하나에서 코어를 얻는지 확인합니다. - 차단에 잘못된 원인을 발생시킬 수 있는 상황이 발생하지 않도록 확인합니다.예를 들어, 스토리지 장애로 인해 쿼럼 디스크가 노드를 배출하거나 Oracle RAC과 같은 타사 제품이 외부 조건으로 인해 노드를 다시 시작하는 등입니다. 메세지 로그는 이러한 문제를 판단하는데 있어서 매우 유용합니다. 차단 장치 또는 노드를 다시 시작할 때 마다, 이것이 발생한 시점에서 클러스터에 있는 모든 노드의 메세지 로그를 검사하는 것은 표준 작업이 되어야 합니다.
- 예상대로 시스템이 하트비트에 반응하지 않을 수 있는 하드웨어 오류에 대해 시스템을 철저히 검사합니다.