7장. 확인된 문제


이 섹션에서는 Red Hat OpenShift Data Foundation 4.18의 알려진 문제에 대해 설명합니다.

7.1. 재해 복구

  • 노드 충돌로 인해 kubelet 서비스 오류가 발생하여 Data Foundation이 오류 상태가 됩니다.

    OpenShift 클러스터에서 예기치 않은 노드가 충돌하면 노드가 NotReady 상태에서 중단되고 스토리지 클러스터에 영향을 미칠 수 있습니다.

    해결방법:

  • 보류 중인 CSR을 가져옵니다.

    oc get csr | grep Pending
    Copy to Clipboard Toggle word wrap
  • 보류 중인 CSR을 승인합니다.

    Approve the pending CSR
    Copy to Clipboard Toggle word wrap

    (DFBUGS-3636)R

  • 4.18에서 4.19로 업그레이드한 후 ramen-hub-operator-config에서 s3StoreProfile이 누락됨

    configmap 이 기본값으로 재정의되면 사용자 정의 S3Profile 및 MCO(Multicluster Orchestrator) Operator가 추가한 기타 세부 정보가 손실됩니다. 이는 Ramen-DR hub Operator가 업그레이드된 후 OLM에서 Ramen-hub CSV에서 제공하는 기본값으로 기존 ramen-hub-operator-config configmap 을 덮어 쓰기 때문에 발생합니다.

    해결방법: hub 클러스터에서 MCO Operator를 다시 시작합니다. 결과적으로 S3profiles와 같은 필수 값이 configmap 에서 업데이트됩니다.

    (DFBUGS-3634)

  • 각 노드가 다운된 경우 CIDR 범위는 csiaddonsnode 오브젝트에 유지되지 않습니다.

    노드가 다운되면 CIDR(Classless Inter-Domain Routing) 정보가 csiaddonsnode 오브젝트에서 사라집니다. 이는 영향을 받는 노드를 펜싱해야 하는 경우 펜싱 메커니즘에 영향을 미칩니다.

    해결방법: NetworkFenceClass 오브젝트가 생성된 직후 CIDR 정보를 수집합니다.

    (DFBUGS-2948)

  • 노드를 교체한 후 새 mon Pod를 예약하지 못했습니다.

    노드를 교체한 후 새 mon pod가 새로 추가된 노드에 자체적으로 예약되지 않습니다. 결과적으로 mon Pod가 Pending 상태로 유지되어 storagecluster 상태를 사용할 수 없게 됩니다.

    해결방법: 올바른 nodeSelector 를 사용하여 새 mon 배포를 수동으로 업데이트합니다.

    (DFBUGS-2918)

  • 재해 복구 v4.17.z에서 v4.18로 업그레이드한 후 재해 복구가 잘못 구성되었습니다.

    ODF Multicluster Orchestrator 및 Openshift DR Hub Operator가 4.17.z에서 4.18로 업그레이드되면 내부 모드 배포에서 특정 재해 복구 리소스가 잘못 구성됩니다. 이는 ocs-storagecluster-ceph-rbd 및 ocs-storagecluster-ceph-rbd -virtualization StorageClasses를 사용하여 워크로드 복구에 영향을 미칩니다.

    이 문제를 해결하려면 이 지식 베이스 문서 의 지침을 따르십시오.

    (DFBUGS-1804)

  • 클러스터가 스트레치 모드에 있을 때 Ceph df 에서 잘못된 MAX AVAIL 값을 보고합니다.

    Red Hat Ceph Storage 클러스터의 CRUSH 규칙에 여러 가지 적용 단계가 있는 경우 ceph df 보고서에는 연결된 풀에 사용 가능한 잘못된 최대 크기가 표시됩니다.

    (DFBUGS-1748)

  • DRPC는 동일한 네임스페이스에서 생성된 모든 영구 볼륨 클레임을 보호합니다.

    여러 재해 복구(DR) 보호 워크로드를 호스팅하는 네임스페이스는 spec.pvcSelector 필드를 사용하여 워크로드에 따라 PVC를 지정하고 분리하지 않는 허브 클러스터의 각 DRPlacementControl 리소스에 대해 네임스페이스 내의 모든 PVC(영구 볼륨 클레임)를 보호합니다.

    이로 인해 여러 워크로드에서 DRPlacementControl spec.pvcSelector 와 일치하는 PVC가 생성됩니다. 또는 선택기가 모든 워크로드에서 누락된 경우 각 PVC를 여러 번 관리하고 개별 DRPlacementControl 작업을 기반으로 데이터 손상 또는 잘못된 작업을 유발하는 복제 관리입니다.

    해결방법: 워크로드에 고유하게 속하는 라벨 PVC와 DRPlacementControl spec.pvcSelector 로 선택한 레이블을 사용하여 네임스페이스 내에서 PVC의 하위 집합을 보호하고 관리하는 DRPlacementControl을 분리합니다. 사용자 인터페이스를 사용하여 DRPlacementControl에 대해 spec.pvcSelector 필드를 지정할 수 없으므로 명령줄을 사용하여 이러한 애플리케이션에 대한 DRPlacementControl을 삭제하고 생성해야 합니다.

    결과: PVC는 여러 DRPlacementControl 리소스에서 더 이상 관리되지 않으며 작업 및 데이터 불일치를 유발하지 않습니다.

    (DFBUGS-1749)

  • 삭제 시 재해 복구 워크로드가 유지됨

    클러스터에서 워크로드를 삭제할 때 해당 Pod가 FailedKillPod 와 같은 이벤트로 종료되지 않을 수 있습니다. 이로 인해 PVC, VolumeReplication , VolumeReplication Group 과 같은 종속적인 DR 리소스를 가비지 수집 지연 또는 실패할 수 있습니다. 또한 오래된 리소스가 아직 가비지 수집되지 않은 경우 클러스터에 동일한 워크로드를 향후 배포하지 않습니다.

    해결방법: Pod가 현재 실행 중이고 종료 상태로 중단된 작업자 노드를 재부팅합니다. 이로 인해 Pod가 성공적으로 종료되고 이후 관련 DR API 리소스도 가비지 수집됩니다.

    (DFBUGS-325)

  • regional-DR CephFS 기반 애플리케이션 장애 조치에서 서브스크립션에 대한 경고 표시

    애플리케이션이 장애 발생 또는 재배치된 후 hub subscriptions에 "Some resources failed to deploy."라는 오류가 표시됩니다. 세부 정보를 보려면 상태 YAML 보기 링크를 사용합니다. 이는 CephFS를 백업 스토리지 프로비전 프로그램으로 사용하는 PVC(애플리케이션 영구 볼륨 클레임)가 RHACM(Red Hat Advanced Cluster Management for Kubernetes) 서브스크립션을 사용하여 배포되며 DR 보호는 해당 DR 컨트롤러에서 소유하기 때문입니다.

    해결방법: 서브스크립션 상태의 오류를 수정하는 해결 방법이 없습니다. 그러나 배포에 실패한 서브스크립션 리소스는 PVC인지 확인할 수 있습니다. 이렇게 하면 다른 리소스에 문제가 발생하지 않습니다. 배포에 실패한 서브스크립션의 유일한 리소스가 DR protected인 경우 오류를 무시할 수 있습니다.

    (DFBUGS-253)

  • disabled PeerReady 플래그를 사용하면 action을 Cryostat로 변경할 수 없습니다.

    DR 컨트롤러는 필요에 따라 전체 조정을 실행합니다. 클러스터에 액세스할 수 없게 되면 DR 컨트롤러에서 온전성 검사를 수행합니다. 워크로드가 이미 재배치된 경우 이 정상 검사로 인해 워크로드와 관련된 PeerReady 플래그가 비활성화되고 클러스터가 오프라인 상태가 되기 때문에 온전성 검사가 완료되지 않습니다. 결과적으로 비활성화된 PeerReady 플래그를 사용하면 작업을 Cryostat로 변경할 수 없습니다.

    해결방법: 명령줄 인터페이스를 사용하여 비활성화된 PeerReady 플래그에도 불구하고 DR 작업을 Cryostat로 변경합니다.

    (DFBUGS-665)

  • 확장 클러스터의 두 데이터 센터 간에 연결이 끊어지면 Ceph에 액세스할 수 없게 되고 IO가 일시 중지됩니다.

    두 데이터 센터가 서로 연결되어 있지만 Arbiter 노드에 연결되어 있는 경우 선택 논리에 결함이 있어 Ceph 모니터 간에 무한 선택이 발생합니다. 결과적으로 Monitor는 리더를 선택할 수 없으며 Ceph 클러스터를 사용할 수 없게 됩니다. 또한 연결 손실 중에 IO가 일시 중지됩니다.

    해결방법: 영역 노드를 종료하여 하나의 데이터 영역의 모니터입니다. 또한 남아 있는 모니터 Pod의 연결 점수를 재설정할 수 있습니다.

    결과적으로 모니터는 쿼럼을 형성하고 Ceph를 다시 사용할 수 있게 되고 IO가 다시 시작됩니다.

    (DFBUGS-425)

  • 교체 클러스터에서 오래된 Ceph 풀 ID를 사용하는 경우 RBD 애플리케이션이 재배치되지 않음

    새 피어 클러스터를 생성하기 전에 생성된 애플리케이션의 경우 피어 클러스터를 교체하면 CSI configmap에서 CephBlockPoolID의 매핑을 업데이트할 수 없기 때문에 RBD PVC를 마운트할 수 없습니다.

    해결방법: 대체되지 않은 피어 클러스터에서 cephBlockPoolID의 매핑으로 rook-ceph-csi-mapping-config configmap을 업데이트합니다. 이를 통해 애플리케이션에 대한 RBD PVC를 마운트할 수 있습니다.

    (DFBUGS-527)

  • lastGroupSyncTime 에 대한 정보는 사용 불가능한 관리형 클러스터에서 기본 제공되는 워크로드에 대한 허브 복구 후 손실됨

    이전에 관리 클러스터로 실패한 애플리케이션은 lastGroupSyncTime 을 보고하지 않으므로 VolumeSynchronizationDelay 경고가 트리거됩니다. 이는 DRPolicy의 일부인 ACM 허브 및 관리 클러스터를 사용할 수 없는 경우 백업에서 새 ACM 허브 클러스터를 재구성하기 때문입니다.

    해결방법: 워크로드가 실패한 관리 클러스터를 사용할 수 없는 경우에도 남아 있는 관리 클러스터로 장애 조치할 수 있습니다.

    (DFBUGS-376)

  • MCO Operator는 veleroNamespaceSecretKeyRefCACertificates 필드를 조정합니다.

    OpenShift Data Foundation Operator가 업그레이드되면 Ramen 구성의 s3StoreProfilesCACertificatesveleroNamespaceSecretKeyRef 필드가 손실됩니다.

    해결방법: Ramen 구성에 CACertificatesveleroNamespaceSecretKeyRef 필드의 사용자 지정 값이 있는 경우 업그레이드가 수행된 후 해당 사용자 지정 값을 설정합니다.

    (DFBUGS-440)

  • virtualmachines.kubevirt.io 리소스가 재배치 시 mac 할당 실패로 인해 복원되지 않음

    가상 머신을 기본 클러스터로 재배치하면 MAC 주소를 사용할 수 없기 때문에 재배치를 완료하지 못할 수 있습니다. 이 문제는 가상 머신이 장애 조치(failover) 클러스터로 장애 조치(failover)할 때 기본 클러스터에서 완전히 정리되지 않은 경우 발생합니다.

    워크로드를 재배치하기 전에 워크로드가 기본 클러스터에서 완전히 제거되었는지 확인합니다.

    (BZ#2295404)

  • 일관성 그룹이 활성화된 CephFS 애플리케이션의 DR을 비활성화하면 일부 리소스가 남아 있을 수 있습니다.

    일관성 그룹이 활성화된 CephFS 애플리케이션의 DR을 비활성화하면 일부 리소스가 남아 있을 수 있습니다. 이러한 경우 수동 정리가 필요할 수 있습니다.

    해결방법: 다음 단계에 따라 리소스를 수동으로 정리합니다.

    1. 두 번째 클러스터에서 다음을 수행합니다.

      • ReplicationGroupDestination을 수동으로 삭제합니다.

        $ oc delete rgd -n <namespace>
        Copy to Clipboard Toggle word wrap
      • 다음 리소스가 삭제되었는지 확인합니다.

        • ReplicationGroupDestination
        • VolumeSnapshot
        • VolumeSnapshotContent
        • ReplicationDestination
        • VolumeReplicationGroup
    2. 기본 클러스터에서 다음을 수행합니다.

      • ReplicationGroupSource를 수동으로 삭제합니다.

        $ oc delete rgs -n <namespace>
        Copy to Clipboard Toggle word wrap
      • 다음 리소스가 삭제되었는지 확인합니다.

        • ReplicationGroupSource
        • VolumeGroupSnapshot
        • VolumeGroupSnapshotContent
        • VolumeSnapshot
        • VolumeSnapshotContent
        • ReplicationSource
        • VolumeReplicationGroup

          (DFBUGS-2950)

  • CephFS를 사용하여 검색된 앱의 경우 장애 조치 후 동기화 중지

    CephFS 기반 워크로드의 경우 검색된 애플리케이션의 동기화가 페일오버 또는 재배치 후 어느 시점에서 중지될 수 있습니다. 이는 ReplicationSource 상태에 보고된 Permission Denied 오류가 발생할 수 있습니다.

    해결방법:

    • 검색되지 않은 애플리케이션의 경우

      • VolumeSnapshot를 삭제합니다.

        $ oc delete volumesnapshot -n <vrg-namespace> <volumesnapshot-name>
        Copy to Clipboard Toggle word wrap

        스냅샷 이름은 일반적으로 PVC 이름 뒤에 타임 스탬프로 시작됩니다.

      • volSync 작업을 삭제합니다.

        $ oc delete job -n <vrg-namespace> <pvc-name>
        Copy to Clipboard Toggle word wrap

        작업 이름은 PVC 이름과 일치합니다.

    • 검색된 애플리케이션의 경우

      < namespace >를 제외하고 위의 단계와 동일한 단계를 사용하면 VRG 네임스페이스가 아닌 애플리케이션 워크로드 네임스페이스를 참조합니다.

    • 일관성 그룹을 사용한 워크로드의 경우

      • ReplicationGroupSource를 삭제합니다.

        $ oc delete replicationgroupsource -n <namespace> <name>
        Copy to Clipboard Toggle word wrap
      • 해당 네임스페이스의 모든volSync 작업을 삭제합니다.

        $ oc delete jobs --all -n <namespace>
        Copy to Clipboard Toggle word wrap

        이 경우 < namespace >는 워크로드의 네임스페이스(검색되거나 아님)를 나타내며 < name >은 ReplicationGroupSource 리소스의 이름을 나타냅니다.

        (DFBUGS-2883)

  • 가상 머신 페이지에서 검색된 앱에서 DR 제거 옵션을 사용할 수 없습니다.

    가상 머신 페이지에 나열된 검색된 애플리케이션에는 DR 제거 옵션을 사용할 수 없습니다.

    해결방법:

    1. DRPlacementControl에 누락된 라벨을 추가합니다.

      {{oc label drplacementcontrol <drpcname> \
      odf.console.selector/resourcetype=virtualmachine \
      -n openshift-dr-ops}}
      Copy to Clipboard Toggle word wrap
    2. 가상 머신 이름을 값으로 사용하여 PROTECTED_VMS recipe 매개변수를 추가합니다.

      {{oc patch drplacementcontrol <drpcname> \
      -n openshift-dr-ops \
      --type='merge' \
      -p '{"spec":{"kubeObjectProtection":{"recipeParameters":{"PROTECTED_VMS":["<vm-name>"]}}}}'}}
      Copy to Clipboard Toggle word wrap

      (DFBUGS-2823)

  • 가상 머신 페이지에서 검색된 앱의 DR 상태가 표시되지 않습니다.

    가상 머신 페이지에 나열된 검색된 애플리케이션에 대해서는 DR 상태가 표시되지 않습니다.

    해결방법:

    1. DRPlacementControl에 누락된 라벨을 추가합니다.

      {{oc label drplacementcontrol <drpcname> \
      odf.console.selector/resourcetype=virtualmachine \
      -n openshift-dr-ops}}
      Copy to Clipboard Toggle word wrap
    2. 가상 머신 이름을 값으로 사용하여 PROTECTED_VMS recipe 매개변수를 추가합니다.

      {{oc patch drplacementcontrol <drpcname> \
      -n openshift-dr-ops \
      --type='merge' \
      -p '{"spec":{"kubeObjectProtection":{"recipeParameters":{"PROTECTED_VMS":["<vm-name>"]}}}}'}}
      Copy to Clipboard Toggle word wrap

      (DFBUGS-2822)

  • 페일오버 후 PVC가 선택 해제되어 보조 VRG의 오래된 항목이 정리되지 않아 후속 재배치가 실패합니다.

    워크로드 장애 조치 후에도 PVC를 선택 해제하고 후속 재배치 작업이 preferredCluster로 다시 수행되면 VRG에서 오래된 PVC가 계속 보고될 수 있습니다. 결과적으로 DRPC는 다음과 유사한 메시지와 함께 해당 조건을 False 로 보고할 수 있습니다.

    클러스터의 VolumeReplicationGroup(/)은 lastGroupSyncTime을 primary로 보고하지 않고 상태가 충족될 때까지 재시도합니다.

    해결방법:

    이 문제를 해결하려면 VRG 상태에서 오래된 PVC(예: 페일오버 후 선택 해제)를 수동으로 정리하십시오.

    1. 장애 조치(failover) 후 선택 해제되어 더 이상 보호되지 않는 오래된 PVC를 식별합니다.
    2. <managed-cluster-name>이라는 ManagedCluster에서 VRG 상태를 편집합니다.

      $ oc edit --subresource=status -n <vrg-namespace> <vrg-name>
      Copy to Clipboard Toggle word wrap
    3. status.protectedPVCs 섹션에서 오래된 PVC 항목을 제거합니다.

      오래된 항목이 제거되면 DRPC가 복구되고 정상으로 보고됩니다.

      (DFBUGS-2932)

  • 검색된 앱에 대해 DR 보호가 제거될 때 보조 PVC는 제거되지 않습니다.

    보조 클러스터에서 워크로드에 연결된 CephFS PVC는 일반적으로 VolumeReplicationGroup(VRG)에서 관리합니다. 그러나 Discovered Applications 기능을 사용하여 워크로드가 검색되면 연결된 CephFS PVC가 VRG 소유로 표시되지 않습니다. 결과적으로 워크로드가 비활성화되면 이러한 PVC가 자동으로 정리되지 않고 분리됩니다.

    해결방법: 검색된 워크로드에 대해 DR 보호를 비활성화한 후 분리된 CephFS PVC를 정리하려면 다음 명령을 사용하여 수동으로 삭제합니다.

    $ oc delete pvc <pvc-name> -n <pvc-namespace>
    Copy to Clipboard Toggle word wrap

    (DFBUGS-2827)

  • ReplicationDestination 리소스가 아직 생성되지 않은 경우 장애 조치(failover) 프로세스가 실패합니다.

    LastGroupSyncTime 이 업데이트되기 전에 사용자가 장애 조치(failover)를 시작하면 장애 조치(failover) 프로세스가 실패할 수 있습니다. 이 실패에는 ReplicationDestination 이 존재하지 않음을 나타내는 오류 메시지가 표시됩니다.

    해결방법:

    허브 클러스터에서 VRG에 대한 ManifestWork 를 편집합니다.

    매니페스트에서 다음 섹션을 삭제합니다.

    /spec/workload/manifests/0/spec/volsync
    Copy to Clipboard Toggle word wrap

    변경 사항을 저장합니다.

    이 해결 방법을 적용하면 VRG에서 ReplicationDestination 리소스를 사용하여 PVC를 복원하려고 합니다. PVC가 이미 존재하는 경우 애플리케이션은 그대로 사용합니다. PVC가 없으면 새 PVC가 생성됩니다.

    (DFBUGS-632)

  • 클러스터에 용량을 추가한 후 경고 상태의 Ceph

    장치 교체 또는 용량을 추가한 후 Ceph가 HALTH _WARN 상태이며 mon 리포팅 속도가 느려지는 것을 확인할 수 있습니다. 그러나 클러스터의 유용성에는 영향을 미치지 않습니다.

    (DFBUGS-1273)

  • 용량 추가 중 OSD Pod 재시작

    클러스터에 용량을 추가하여 클러스터 확장을 수행한 후 OSD Pod가 다시 시작됩니다. 그러나 Pod를 다시 시작하는 것 외에도 클러스터에는 영향을 미치지 않습니다.

    (DFBUGS-1426)

맨 위로 이동
Red Hat logoGithubredditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다. 최신 업데이트를 확인하세요.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

Theme

© 2025 Red Hat