3.18. Red Hat Advanced Cluster Management를 사용한 Hub 복구 [기술 프리뷰]
설정에 활성 및 수동 Red Hat Advanced Cluster Management for Kubernetes(RHACM) 허브 클러스터가 있고 활성 허브가 다운된 경우 수동 허브를 사용하여 재해 복구 보호 워크로드를 장애 조치하거나 재배치할 수 있습니다.
Metro-DR의 Hub 복구 기능은 기술 프리뷰 기능이며 기술 프리뷰 지원 제한 사항이 적용됩니다. 기술 프리뷰 기능은 Red Hat 프로덕션 서비스 수준 계약(SLA)에서 지원되지 않으며 기능적으로 완전하지 않을 수 있습니다. Red Hat은 프로덕션 환경에서 사용하는 것을 권장하지 않습니다. 이러한 기능을 통해 향후 제품 기능에 조기에 액세스할 수 있어 개발 프로세스 중에 기능을 테스트하고 피드백을 제공할 수 있습니다.
자세한 내용은 기술 프리뷰 기능 지원 범위를 참조하십시오.
3.18.1. 수동 허브 클러스터 구성 링크 복사링크가 클립보드에 복사되었습니다!
활성 허브가 다운되거나 연결할 수 없는 경우 허브 복구를 수행하려면 이 섹션의 절차에 따라 패시브 허브 클러스터를 구성한 다음 장애 조치하거나 재해 복구 보호 워크로드를 재배치합니다.
프로시저
RHACM Operator 및
MultiClusterHub가 패시브 허브 클러스터에 설치되어 있는지 확인합니다. 자세한 내용은 RHACM 설치 가이드를 참조하십시오.Operator가 성공적으로 설치되면 웹 콘솔 업데이트를 사용할 수 있다는 메시지가 포함된 팝업이 사용자 인터페이스에 표시됩니다. 콘솔 변경 사항을 반영하려면 이 팝업 창에서 웹 콘솔 새로 고침을 클릭합니다.
- 허브 복구 전에 백업 및 복원을 구성합니다. RHACM 비즈니스 연속성 가이드의 백업 및 복원 항목을 참조하십시오.
- 복원 전에 수동 RHACM 허브에 Red Hat OpenShift GitOps Operator와 함께 MCO(Multicluster 오케스트레이터) Operator를 설치합니다. RHACM 허브를 복원하는 방법은 OpenShift Data Foundation Multicluster Orchestrator Operator 설치를 참조하십시오.
-
Restore.cluster.open-cluster-management.io리소스에 대해.spec.cleanupBeforeRestore가None으로 설정되어 있는지 확인합니다. 자세한 내용은 RHACM 문서의 백업 장을 확인하는 동안 수동 리소스 복원을 참조하십시오. - 설정 중에 클러스터 간 SSL 액세스를 수동으로 구성한 경우 클러스터 전체에서 SSL 액세스를 다시 구성합니다. 자세한 내용은 클러스터 간 SSL 액세스 구성 장을 참조하십시오.
Passive Hub에서
openshift-operators네임스페이스에 레이블을 추가하여 이 명령을 사용하여VolumeSyncronizationDelay경고의 기본 모니터링을 활성화합니다. 경고에 대한 자세한 내용은 재해 복구 경고 장을 참조하십시오.$ oc label namespace openshift-operators openshift.io/cluster-monitoring='true'
3.18.2. 수동 허브 클러스터로 전환 링크 복사링크가 클립보드에 복사되었습니다!
활성 허브가 다운되거나 연결할 수 없는 경우 다음 절차를 사용하십시오.
프로시저
복원 절차 중에 ManifestWorks 가 올바르게 다시 생성되지 않을 때 리소스 제거를 방지하기 위해 AppliedManifestWork 제거 유예 기간을 확대할 수 있습니다. 패시브 허브 클러스터에서 기존 글로벌
KlusterletConfig를 확인합니다.-
글로벌 KlusterletConfig 가 있는 경우 를 편집하고
appliedManifestWorkEvictionGracePeriod매개변수의 값을 더 큰 값으로 설정합니다. 예를 들면 24시간 이상입니다. 글로벌 KlusterletConfig 가 없는 경우 다음 yaml을 사용하여 Klusterletconfig 를 생성합니다.
apiVersion: config.open-cluster-management.io/v1alpha1 kind: KlusterletConfig metadata: name: global spec: appliedManifestWorkEvictionGracePeriod: "24h"구성은 모든 관리 클러스터에 자동으로 전파됩니다.
-
글로벌 KlusterletConfig 가 있는 경우 를 편집하고
패시브 허브 클러스터에서 백업을 복원합니다. 자세한 내용은 백업 에서 허브 클러스터 복원을 참조하십시오.
중요수동 인스턴스에 실패한 허브를 복구하면 애플리케이션과 DR protected 상태만 마지막 예약된 백업으로 복원됩니다. 마지막으로 예약된 백업 이후 DR로 보호되었던 모든 애플리케이션을 새 허브에서 다시 보호해야 합니다.
복원이 완료되었는지 확인합니다.
$ oc -n <restore-namespace> wait restore <restore-name> --for=jsonpath='{.status.phase}'=Finished --timeout=120s- 기본 및 보조 관리 클러스터를 RHACM 콘솔로 가져 와서 액세스할 수 있는지 확인합니다. 관리 클러스터가 다운되었거나 연결할 수 없는 경우 해당 클러스터를 성공적으로 가져오지 않습니다.
- DRPolicy 검증이 성공할 때까지 기다립니다.
DRPolicy 가 성공적으로 생성되었는지 확인합니다. 생성된 각 DRPolicy 리소스에 대해 Hub 클러스터에서 이 명령을 실행합니다. 여기서 < drpolicy_name >은 고유한 이름으로 교체됩니다.
$ oc get drpolicy <drpolicy_name> -o jsonpath='{.status.conditions[].reason}{"\n"}'출력 예:
Succeeded- RHACM 콘솔을 새로 고침하여 Active Hub 클러스터에서 활성화된 경우 DR 모니터링 대시보드 탭을 액세스할 수 있도록 합니다.
새 허브 클러스터에서 다음 명령을 사용하여 DRPC 출력을 확인합니다.
$ oc get drpc -A -o widePROGRESSION에PAUSED상태가 표시되면 일시 중지를 해제하려면 관리 개입이 필요합니다.PROGRESSION은 다음과 같은 조건에서PAUSED상태가 됩니다.- 클러스터 쿼리 실패: DRPC 조정 중에 클러스터가 성공적으로 쿼리되지 않았습니다. 이러한 상황은 허브 복구 중에 발생할 수 있습니다.
- 동작 Mismatch: DRPC 작업은 쿼리된 VRG 작업과 다릅니다.
Cluster Mismatch: DRPC 작업과 VRG 작업은 동일하지만 기본 VRG는 DRPC가 예상한 클러스터와 다른 클러스터에서 찾을 수 있습니다.
중요일시 중지 원인을 진단하고 해결할 수 없는 경우 Red Hat 고객 지원팀에 문의하십시오.
PROGRESSION이Completed또는cleaning up에 있는 경우 안전하게 진행할 수 있습니다.
-
새 허브에서 글로벌 KlusterletConfig 를 편집하고
appliedManifestWorkEvictionGracePeriod매개변수와 해당 값을 제거합니다. 활성 허브 클러스터 또는 기본 관리 클러스터와 함께 활성 허브 클러스터가 모두 중단되었는지에 따라 다음 시나리오를 기반으로 다음 단계를 따르십시오.
- 활성 허브 클러스터만 중단되었으며 관리 클러스터에 계속 액세스할 수 있는 경우 추가 작업이 필요하지 않습니다.
활성 허브 클러스터와 함께 기본 관리 클러스터가 중단된 경우 기본 관리 클러스터의 워크로드를 보조 관리 클러스터로 장애 조치해야 합니다.
워크로드 유형에 따른 장애 조치 지침은 서브스크립션 기반 애플리케이션 또는 ApplicationSet 기반 애플리케이션을 참조하십시오.
장애 조치(failover)가 성공했는지 확인합니다. 기본 관리 클러스터가 다운된 경우 기본 관리 클러스터가 다시 온라인 상태가 되고 RHACM 콘솔로 성공적으로 가져올 때까지 워크로드에 대한 PROGRESSION 상태가
정리중 상태가 됩니다.Passive hub 클러스터에서 다음 명령을 실행하여 PROGRESSION 상태를 확인합니다.
$ oc get drpc -o wide -A