3장. 노드 오류 처리
스토리지 관리자는 스토리지 클러스터 내에서 전체 노드가 실패하고 노드 오류 처리와 디스크 오류 처리와 유사할 수 있습니다. 노드에 오류가 발생하면 Ceph에서 하나의 디스크에 대한 PG(위로 그룹)를 복구하는 대신 해당 노드 내의 디스크에 있는 모든 PG를 복구해야 합니다. Ceph에서 OSD가 모두 다운되었음을 감지하고 자동 복구라는 복구 프로세스를 자동으로 시작합니다.
노드 장애 시나리오는 세 가지입니다. 다음은 노드를 교체할 때 각 시나리오에 대한 상위 수준 워크플로입니다.
노드 교체는 하지만 오류가 발생한 노드에서 root 및 Ceph OSD 디스크를 사용합니다.
- 백필을 비활성화합니다.
- 노드를 교체하여 이전 노드에서 디스크를 가져와 새 노드에 추가합니다.
- 백필을 활성화합니다.
노드를 교체하고 운영 체제를 다시 설치하고 실패한 노드에서 Ceph OSD 디스크를 사용합니다.
- 백필을 비활성화합니다.
- Ceph 구성의 백업을 만듭니다.
노드를 교체하고 실패한 노드에서 Ceph OSD 디스크를 추가합니다.
- 디스크를 JBOD로 구성.
- 운영 체제를 설치합니다.
- Ceph 구성을 복원합니다.
-
ceph-ansible
을 실행합니다. - 백필을 활성화합니다.
노드를 교체하고 운영 체제를 다시 설치하고 모든 새 Ceph OSD 디스크를 사용합니다.
- 백필을 비활성화합니다.
- 스토리지 클러스터에서 장애가 발생한 노드의 모든 OSD를 제거합니다.
- Ceph 구성의 백업을 만듭니다.
노드를 교체하고 실패한 노드에서 Ceph OSD 디스크를 추가합니다.
- 디스크를 JBOD로 구성.
- 운영 체제를 설치합니다.
-
ceph-ansible
을 실행합니다. - 백필을 활성화합니다.
3.1. 사전 요구 사항
- 실행 중인 Red Hat Ceph Storage 클러스터.
- 실패한 노드.