2.3. OpenShift Dedicated의 프로세스 및 보안 이해


2.3.1. 클러스터 알림 검토 및 작업

클러스터 알림은 클러스터의 상태, 상태 또는 성능에 대한 메시지입니다.

클러스터 알림은 Red Hat site Reliability Engineering(SRE)이 관리형 클러스터의 상태에 대해 귀하와 통신하는 기본 방법입니다. SRE는 클러스터 알림을 사용하여 클러스터 문제를 해결하거나 방지하기 위해 작업을 수행하도록 요청할 수도 있습니다.

클러스터 소유자 및 관리자는 클러스터가 정상 상태로 유지되고 지원되는지 확인하기 위해 클러스터 알림을 정기적으로 검토하고 조치를 취해야 합니다.

클러스터의 클러스터 기록 탭에서 Red Hat Hybrid Cloud Console에서 클러스터 알림을 볼 수 있습니다. 기본적으로 클러스터 소유자만 이메일로 클러스터 알림을 수신합니다. 다른 사용자가 클러스터 알림 이메일을 수신해야 하는 경우 각 사용자를 클러스터에 대한 알림 연락처로 추가합니다.

2.3.1.1. 클러스터 알림 정책

클러스터 알림은 클러스터의 상태와 영향을 미치는 높은 영향을 미치는 이벤트에 대한 정보를 유지하도록 설계되었습니다.

대부분의 클러스터 알림은 자동으로 생성되고 전송되어 즉시 문제에 대한 정보 또는 클러스터 상태에 대한 중요한 변경 사항을 확인할 수 있습니다.

특정 상황에서 Red Hat 사이트 안정성 엔지니어링(SRE)은 클러스터 알림을 생성하고 전송하여 복잡한 문제에 대한 추가 컨텍스트 및 지침을 제공합니다.

영향을 받지 않는 이벤트, 위험이 낮은 보안 업데이트, 일상적인 운영 및 유지 관리 또는 SRE가 신속하게 해결하는 일시적인 문제에 대해서는 클러스터 알림이 전송되지 않습니다.

Red Hat 서비스는 다음과 같은 경우 자동으로 알림을 보냅니다.

  • 원격 상태 모니터링 또는 환경 확인 검사에서는 작업자 노드에 디스크 공간이 부족한 경우와 같이 클러스터에서 문제를 감지합니다.
  • 예를 들어 예정된 유지 관리 또는 업그레이드가 시작되는 경우 심각한 클러스터 라이프 사이클 이벤트가 발생하거나 클러스터 작업이 이벤트의 영향을 받지만 고객의 개입은 필요하지 않습니다.
  • 예를 들어 클러스터 소유권 또는 관리 제어가 한 사용자에서 다른 사용자로 전송되는 경우와 같이 중요한 클러스터 관리 변경이 발생합니다.
  • 예를 들어 Red Hat이 클러스터에서 서브스크립션 조건 또는 기능을 업데이트할 때 클러스터 서브스크립션이 변경 또는 업데이트됩니다.

SRE는 다음과 같은 경우 알림을 생성하고 보냅니다.

  • 사고로 인해 클러스터의 가용성 또는 성능에 영향을 미치는 성능 저하 또는 중단이 발생합니다(예: 클라우드 공급자의 경우 지역 중단). SRE는 사고 해결 진행 상황을 알려주기 위해 후속 알림을 보냅니다.
  • 클러스터에서 보안 취약점, 보안 위반 또는 비정상적인 활동이 감지됩니다.
  • Red Hat은 변경 사항이 생성 중이거나 클러스터 불안정성을 초래할 수 있음을 감지합니다.
  • Red Hat은 워크로드가 클러스터에서 성능 저하 또는 불안정성을 초래하고 있음을 감지합니다.

2.3.2. 사고 및 운영 관리

이 문서에서는 OpenShift Dedicated 관리 서비스에 대한 Red Hat 책임을 자세히 설명합니다. 클라우드 공급자는 클라우드 공급자가 제공하는 서비스를 실행하는 하드웨어 인프라를 보호할 책임이 있습니다. 고객은 고객 애플리케이션 데이터의 사고 및 운영 관리 및 고객이 클러스터 네트워크 또는 가상 네트워크에 대해 구성한 사용자 지정 네트워킹을 담당합니다.

2.3.2.1. 플랫폼 모니터링

Red Hat 사이트 안정성 엔지니어(SRE)는 모든 OpenShift Dedicated 클러스터 구성 요소, SRE 서비스 및 기본 클라우드 공급자 계정에 대해 중앙 집중식 모니터링 및 경고 시스템을 유지 관리합니다. 플랫폼 감사 로그는 중앙 집중식 SIEM(보안 정보 및 이벤트 모니터링) 시스템으로 안전하게 전달되며, 여기서 SRE 팀에 구성된 경고를 트리거하고 수동 검토도 수행할 수 있습니다. 감사 로그는 SIEM에서 1년 동안 유지됩니다. 지정된 클러스터에 대한 감사 로그는 클러스터를 삭제할 때 삭제되지 않습니다.

2.3.2.2. 사고 관리

사고는 하나 이상의 Red Hat 서비스의 성능 저하 또는 중단을 초래하는 이벤트입니다. 이러한 사고는 중앙 집중식 모니터링 및 경고 시스템에 의해 직접 또는 SRE 팀의 구성원에 의해 지원 케이스를 통해 고객 또는 CEE(Customer Experience and Engagement)에 의해 발생할 수 있습니다.

서비스 및 고객에 미치는 영향에 따라 보안 사고는 심각도 별로 분류됩니다.

Red Hat에서 새로운 사고를 관리하는 방법에 대한 일반적인 워크플로:

  1. SRE 첫 번째 응답자는 새로운 사고에 대한 경고를 받고 있으며 초기 조사를 시작합니다.
  2. 초기 조사 후 사고의 선두주자가 할당되며, 이는 복구 노력을 조정합니다.
  3. 사고 리더는 관련 알림 또는 지원 케이스 업데이트를 포함하여 모든 통신을 관리하고 복구와 관련된 조정을 관리합니다.
  4. 이 사고는 복구되었습니다.
  5. 사고는 문서화되어 있으며 근본적인 원인 분석은 사고 후 5 일 이내에 수행됩니다.
  6. 근본 원인 분석 (RCA) 초안 문서는 사고 후 7 일 이내에 고객과 공유됩니다.

2.3.2.3. 백업 및 복구

모든 OpenShift Dedicated 클러스터는 클라우드 공급자 스냅샷을 사용하여 백업됩니다. 특히 PV(영구 볼륨)에 저장된 고객 데이터는 포함되지 않습니다. 모든 스냅샷은 적절한 클라우드 공급자 스냅샷 API를 사용하여 수행되며 클러스터와 동일한 계정에서 보안 오브젝트 스토리지 버킷(AWS의 S3 및 Google Cloud의 GCS)에 업로드됩니다.

구성 요소스냅샷 빈도보존참고

전체 오브젝트 저장소 백업

daily

7일

이는 etcd와 같은 모든 Kubernetes 오브젝트의 전체 백업입니다. 이 백업 일정에는 PV가 백업되지 않습니다.

weekly

30일

전체 오브젝트 저장소 백업

hourly

24시간

이는 etcd와 같은 모든 Kubernetes 오브젝트의 전체 백업입니다. 이 백업 일정에는 PV가 백업되지 않습니다.

노드 루트 볼륨

Never

해당 없음

노드는 단기적으로 간주됩니다. 중요한 것은 노드의 루트 볼륨에 저장해야 합니다.

  • Red Hat은 PREO (Resupation Point Objective) 또는 RTO (RTO)에 커밋하지 않습니다.
  • 고객은 데이터의 정기적인 백업을 수행할 책임이 있습니다.
  • 고객은 Kubernetes 모범 사례를 따르는 워크로드를 사용하여 다중 AZ 클러스터를 배포하여 한 리전 내에서 고가용성을 보장해야 합니다.
  • 전체 클라우드 리전을 사용할 수 없는 경우 고객은 다른 지역에 새 클러스터를 설치하고 백업 데이터를 사용하여 앱을 복원해야 합니다.

2.3.2.4. 클러스터 용량

클러스터 용량을 평가하고 관리하는 것은 Red Hat과 고객 간에 공유됩니다. Red Hat SRE는 클러스터의 모든 컨트롤 플레인 및 인프라 노드의 용량을 담당합니다.

Red Hat SRE는 업그레이드 중 및 클러스터 경고에 대한 응답으로 클러스터 용량도 평가합니다. 용량에 대한 클러스터 업그레이드의 영향은 업그레이드 테스트 프로세스의 일부로 평가되어 클러스터에 새로 추가된 용량의 부정적인 영향을 받지 않도록 합니다. 클러스터 업그레이드 중에 업그레이드 프로세스 중에 총 클러스터 용량을 유지하도록 추가 작업자 노드가 추가됩니다.

SRE 직원의 용량 평가는 특정 기간 동안 사용 임계 값을 초과하면 클러스터의 경고에 대한 응답으로도 수행됩니다. 이러한 경고는 고객에게 통지가 발생할 수도 있습니다.

2.3.3. 변경 관리

이 섹션에서는 클러스터 및 구성 변경, 패치 및 릴리스를 관리하는 방법에 대한 정책에 대해 설명합니다.

2.3.3.1. 고객 시작 변경

클러스터 배포, 작업자 노드 확장 또는 클러스터 삭제와 같은 셀프 서비스 기능을 사용하여 변경 사항을 시작할 수 있습니다.

변경 내역은 OpenShift Cluster Manager 개요 탭 의 클러스터 기록 섹션에서 캡처되며 사용자가 확인할 수 있습니다. 변경 내역에는 다음이 포함되지만 이에 국한되지는 않으며 다음 변경 사항의 로그가 포함됩니다.

  • ID 공급자 추가 또는 제거
  • dedicated-admins 그룹에 사용자 추가 또는 제거
  • 클러스터 컴퓨팅 노드 확장
  • 클러스터 로드 밸런서 스케일링
  • 클러스터 영구 스토리지 스케일링
  • 클러스터 업그레이드

다음 구성 요소에 대해 OpenShift Cluster Manager의 변경 사항을 방지하여 유지 관리 제외를 구현할 수 있습니다.

  • 클러스터 삭제
  • ID 공급자 추가, 수정 또는 제거
  • 승격된 그룹에서 사용자 추가, 수정 또는 제거
  • 애드온 설치 또는 제거
  • 클러스터 네트워킹 구성 수정
  • 머신 풀 추가, 수정 또는 제거
  • 사용자 워크로드 모니터링 활성화 또는 비활성화
  • 업그레이드 시작
중요

유지 관리 제외를 적용하려면 머신 풀 자동 스케일링 또는 자동 업그레이드 정책을 비활성화해야 합니다. 유지 관리 제외가 해제된 후 필요에 따라 머신 풀 자동 스케일링 또는 자동 업그레이드 정책 활성화를 진행합니다.

2.3.3.2. Red Hat 시작 변경

Red Hat SRE(사이트 안정성 엔지니어링)는 GitOps 워크플로우 및 완전히 자동화된 CI/CD 파이프라인을 사용하여 OpenShift Dedicated의 인프라, 코드 및 구성을 관리합니다. 이 프로세스를 통해 Red Hat은 고객에게 부정적인 영향을 미치지 않고 지속적으로 서비스 개선을 지속적으로 개선할 수 있습니다.

제안된 모든 변경 사항은 점검 즉시 일련의 자동 검증을 거칩니다. 그런 다음 변경 사항이 자동화된 통합 테스트를 받는 스테이징 환경에 배포됩니다. 마지막으로 변경 사항이 프로덕션 환경에 배포됩니다. 각 단계는 완전히 자동화됩니다.

승인된 SRE 검토자는 각 단계에 대한 진행을 승인해야 합니다. 검토자는 변경 사항을 제안한 동일한 개인일 수 없습니다. 모든 변경 사항 및 승인은 GitOps 워크플로우의 일부로 완전히 감사할 수 있습니다.

기능 플래그를 사용하여 지정된 클러스터 또는 고객에 대한 새 기능의 가용성을 제어하는 일부 변경 사항이 증분적으로 릴리스됩니다.

2.3.3.3. 패치 관리

OpenShift Container Platform 소프트웨어 및 기본 변경 불가능한 RHCOS(Red Hat Enterprise Linux CoreOS) 운영 체제 이미지는 일반 z-stream 업그레이드의 버그 및 취약점에 대해 패치됩니다. OpenShift Container Platform 설명서에서 RHCOS 아키텍처에 대해 자세히 알아보십시오.

2.3.3.4. 릴리스 관리

Red Hat은 클러스터를 자동으로 업그레이드하지 않습니다. OpenShift Cluster Manager 웹 콘솔을 사용하여 클러스터를 정기적인 간격으로 업그레이드하거나 (개인 업그레이드) 한 번만 예약할 수 있습니다. Red Hat은 클러스터가 심각한 영향 CVE의 영향을 받는 경우에만 클러스터를 새 z-stream 버전으로 강제로 업그레이드할 수 있습니다. OpenShift Cluster Manager 웹 콘솔에서 모든 클러스터 업그레이드 이벤트 기록을 검토할 수 있습니다. 릴리스에 대한 자세한 내용은 라이프 사이클 정책을 참조하십시오.

2.3.4. 보안 및 규정 준수

보안 및 규정 준수에는 보안 제어 및 컴플라이언스 인증 구현과 같은 작업이 포함됩니다.

2.3.4.1. 데이터 분류

Red Hat은 데이터 분류 표준을 정의하고 준수하여 데이터의 민감도를 결정하고 수집, 사용, 전송 및 처리되는 데이터의 기밀성 및 무결성에 대한 내재적인 위험을 강조합니다. 고객 소유 데이터는 최고 수준의 민감도 및 처리 요구 사항으로 분류됩니다.

2.3.4.2. 데이터 관리

OpenShift Dedicated는 AWS KMS(Key Management Service) 및 Google Cloud KMS와 같은 클라우드 공급자 서비스를 사용하여 영구 데이터의 암호화 키를 안전하게 관리할 수 있습니다. 이러한 키는 모든 컨트롤 플레인, 인프라 및 작업자 노드 루트 볼륨을 암호화하는 데 사용됩니다. 고객은 설치시 루트 볼륨을 암호화하기 위해 자체 KMS 키를 지정할 수 있습니다. PV(영구 볼륨)는 키 관리를 위해 KMS도 사용합니다. 고객은 KMS 키 AMI(Amazon Resource Name) 또는 ID를 참조하여 새 StorageClass 를 생성하여 PV를 암호화하기 위해 자체 KMS 키를 지정할 수 있습니다.

고객이 OpenShift Dedicated 클러스터를 삭제하면 컨트롤 플레인 데이터 볼륨 및 고객 애플리케이션 데이터 볼륨(예: PV)을 포함하여 모든 클러스터 데이터가 영구적으로 삭제됩니다.

2.3.4.3. 취약점 관리

Red Hat은 업계 표준 툴을 사용하여 OpenShift Dedicated의 주기적인 취약점 스캔을 수행합니다. 확인된 취약점은 심각도에 따라 타임라인에 따라 수정에 추적됩니다. 취약점 스캔 및 수정 활동에는 규정 준수 인증 감사 과정에서 타사 평가자가 확인할 수 있도록 문서화되어 있습니다.

2.3.4.4. 네트워크 보안

2.3.4.4.1. 방화벽 및 CloudEvent 보호

각 OpenShift Dedicated 클러스터는 방화벽 규칙(AWS Security Groups 또는 Google Cloud Compute Engine 방화벽 규칙)을 사용하여 클라우드 인프라 수준에서 보안 네트워크 구성으로 보호됩니다. AWS의 OpenShift Dedicated 고객도 AWS Shield Standard 를 사용하여 DDoS 공격으로부터 보호됩니다. 마찬가지로 GCP의 OpenShift Dedicated에서 사용하는 모든 GCP 로드 밸런서 및 공용 IP 주소는 Google Cloud Armor Standard 를 사용하여 DDoS 공격으로부터 보호됩니다.

2.3.4.4.2. 프라이빗 클러스터 및 네트워크 연결

고객은 선택적으로 인터넷에서 클러스터 컨트롤 플레인 또는 애플리케이션에 액세스할 수 없도록 OpenShift Dedicated 클러스터 끝점(웹 콘솔, API 및 애플리케이션 라우터)을 비공개로 구성할 수 있습니다.

AWS의 경우 고객은 AWS VPC 피어링, AWS VPN 또는 AWS Direct Connect를 통해 OpenShift Dedicated 클러스터에 대한 프라이빗 네트워크 연결을 구성할 수 있습니다.

2.3.4.4.3. 클러스터 네트워크 액세스 제어

세분화된 네트워크 액세스 제어 규칙은 프로젝트당 고객이 구성할 수 있습니다.

2.3.4.5. Penetration 테스트

Red Hat은 OpenShift Dedicated에 대해 주기적인 침투 테스트를 수행합니다. 테스트는 산업 표준 툴과 모범 사례를 사용하여 독립적인 내부 팀에서 수행합니다.

발견된 문제는 심각도에 따라 우선 순위가 지정됩니다. 오픈 소스 프로젝트에 속하는 모든 문제는 해결을 위해 커뮤니티와 공유됩니다.

2.3.4.6. 컴플라이언스

OpenShift Dedicated는 보안 및 제어를 위한 일반적인 업계 모범 사례를 따릅니다. 인증은 다음 표에 설명되어 있습니다.

표 2.2. OpenShift Dedicated의 보안 및 제어 인증
컴플라이언스AWS의 OpenShift DedicatedGCP의 OpenShift Dedicated

HIPAA 정규화된

제공됨 (고객 클라우드 서브스크립션만)

제공됨 (고객 클라우드 서브스크립션만)

ISO 27001

제공됨

제공됨

PCI DSS 4.0

제공됨

제공됨

SOC 2 Type 2

제공됨

제공됨

추가 리소스

2.3.5. 재해 복구

OpenShift Dedicated는 Pod, 작업자 노드, 인프라 노드, 컨트롤 플레인 노드 및 가용성 영역 수준에서 발생하는 오류에 대한 재해 복구를 제공합니다.

모든 재해 복구를 위해서는 고객이 원하는 가용성 수준을 고려하여 고가용성 애플리케이션, 스토리지 및 클러스터 아키텍처(예: 단일 영역 배포 vs. 다중 영역 배포)를 배포하는 모범 사례를 사용해야 합니다.

하나의 단일 영역 클러스터는 가용성 영역 또는 지역 중단 시 재해 방지 또는 복구를 제공하지 않습니다. 고객이 유지보수하는 장애 조치가 있는 여러 단일 영역 클러스터는 영역 또는 지역 수준에서의 중단을 설명할 수 있습니다.

하나의 다중 영역 클러스터는 전체 리전 중단 시 재해 방지 또는 복구를 제공하지 않습니다. 고객이 유지보수하는 장애 조치가 있는 여러 다중 영역 클러스터는 지역 수준에서의 중단을 설명할 수 있습니다.

2.3.6. 추가 리소스

  • Red Hat 사이트 안정성 엔지니어링 (SRE) 팀 액세스에 대한 자세한 내용은 ID 및 액세스 관리를 참조하십시오.
Red Hat logoGithubRedditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

© 2024 Red Hat, Inc.