2.3. 了解 OpenShift Dedicated 的进程和安全性
2.3.1. 检查和操作集群通知 复制链接链接已复制到粘贴板!
集群通知(有时称为服务日志)是有关集群状态、健康或性能的消息。
集群通知是 Red Hat Site Reliability Engineering (SRE)与您有关受管集群健康状况的主要方法。Red Hat SRE 可能还会使用集群通知来提示您执行操作,以便解决或防止集群出现问题。
集群所有者和管理员必须定期检查和操作集群通知,以确保集群保持健康且受支持。
您可以在集群的 Cluster history 选项卡中查看 Red Hat Hybrid Cloud Console 中的集群通知。默认情况下,只有集群所有者接收集群通知作为电子邮件。如果其他用户需要接收集群通知电子邮件,请将每个用户添加为集群的通知联系人。
2.3.1.1. 集群通知策略 复制链接链接已复制到粘贴板!
集群通知旨在让您了解集群的健康状况以及影响它的高影响事件。
大多数集群通知都会自动生成并自动发送,以确保您立即了解集群状态的问题或重要更改。
在某些情况下,Red Hat Site Reliability Engineering (SRE)创建并发送集群通知,以便为复杂的问题提供额外的上下文和指导。
集群通知不会针对低影响事件、低风险安全更新、日常操作和维护或次要的临时问题发送,它们会被 Red Hat SRE 快速解决。
红帽服务在以下情况下自动发送通知:
- 远程健康监控或环境验证检查会检测集群中的问题,例如当 worker 节点有低磁盘空间时。
- 大量的集群生命周期事件(例如调度维护或升级时),或者集群操作会受到事件的影响,但不需要客户干预。
- 大量的集群管理更改,例如,当集群所有权或管理控制从一个用户转移到另一个用户时。
- 您的集群订阅会被更改或更新,例如,当红帽对集群进行订阅条款或功能的更新时。
SRE 在以下情况下创建和发送通知:
- 事件会导致降级或中断会影响集群的可用性或性能,例如,您的云供应商有区域中断。SRE 发送后续通知以告知您事件解析进度以及事件被解决的时间。
- 集群中检测到安全漏洞、安全漏洞或异常活动。
- 红帽检测到您所做的更改正在创建,或可能会导致集群不稳定。
- 红帽检测到您的工作负载会导致集群中的性能下降或不稳定。
2.3.2. 事件和操作管理 复制链接链接已复制到粘贴板!
本文档详细介绍了 OpenShift Dedicated 管理服务的职责。云提供商负责保护运行云提供商所提供的服务的硬件基础架构。客户负责客户应用程序数据的事件和操作管理,以及客户为集群网络或虚拟网络配置的任何自定义网络。
2.3.2.1. 平台监控 复制链接链接已复制到粘贴板!
Red Hat Site Reliability 工程师(SRE)维护所有 OpenShift Dedicated 集群组件、SRE 服务和底层云供应商帐户的集中监控和警报系统。平台审计日志可以安全地转发到集中式 SIEM (安全信息和事件监控)系统,其中可能会触发 SRE 团队配置的警报,也可以手动审核。审计日志保留在 SIEM 中一年。当集群被删除时,给定集群的审计日志不会被删除。
2.3.2.2. 事件管理 复制链接链接已复制到粘贴板!
事件是导致一个或多个红帽服务降级或中断的事件。
事件可以由客户或客户体验与参与(CEE)成员通过支持问题单、直接由集中式监控和警报系统或由 SRE 团队的成员直接提升。
根据服务和客户的影响,事件会按照严重性进行分级。
在管理新事件时,红帽使用以下常规工作流:
- SRE 第一次响应器会警告新的事件,并开始进行初始调查。
- 在初始调查后,会为事件分配一个事件,领导事件协调恢复工作。
- 事件线索管理关于恢复的所有通信和协调,包括相关的通知和支持问题单更新。
- 当事件被解决时,在客户发起的支持票据中提供了事件和解决方案的简单摘要。此摘要可帮助客户更加详细地了解事件及其解决方案。
如果客户除了支持票据中提供的内容外,客户还需要更多信息,他们可以请求以下工作流:
- 客户必须在事件解析的 5 个工作日内请求其他信息。
- 根据事件的严重性,红帽可能会为客户提供根本原因概述,或支持票据中的根本原因分析(RCA)。额外的信息将在 7 个工作日内提供根本原因概述,以及针对来自事件解析的根原因分析的 30 个工作日。
红帽还协助通过支持问题单引发的客户事件。红帽可协助活动,包括但不限于:
- forensic 收集,包括隔离虚拟计算
- 指导计算镜像集合
- 提供收集的审计日志
2.3.2.3. 备份和恢复 复制链接链接已复制到粘贴板!
所有 OpenShift Dedicated 集群都使用云供应商快照备份。值得注意的是,这不包括存储在持久性卷 (PV) 上的客户数据。所有快照都使用适当的云供应商快照 API,并上传到与集群相同的帐户中的安全对象存储桶(AWS 中的S3 和 Google Cloud 中的 GCS)中。
组件 | 快照频率 | 保留 | 备注 |
---|---|---|---|
完整对象存储备份 | 每日 | 7 天 | 这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度中没有备份 PV。 |
每周 | 30 天 | ||
完整对象存储备份 | 每小时 | 24 小时 | 这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度中没有备份 PV。 |
节点根卷 | Never | N/A | 节点被视为是短期的。节点的 root 卷应当不重要。 |
- 红帽不提交任何恢复点目标 (RPO) 或恢复时间目标 (RTO)。
- 客户负责对其数据的定期备份
- 客户应部署带有 Kubernetes 最佳实践工作负载的 multi-AZ 集群,以确保在区域内高可用性。
- 如果整个云区域不可用,客户必须在不同的区域安装新集群,并使用备份数据恢复其应用程序。
2.3.2.4. 集群容量 复制链接链接已复制到粘贴板!
评估和管理集群容量是由红帽和客户之间共享的责任。Red Hat SRE 负责集群中所有 control plane 和基础架构节点的容量。
红帽 SRE 还会评估升级过程中的集群容量,并响应集群警报。集群升级对容量的影响会被评估为升级测试过程的一部分,以确保对集群的新添加添加的负面影响。在集群升级过程中,添加了额外的 worker 节点,以确保在升级过程中保留集群的总容量。
SRE 人员的容量评估也会在响应集群中的警报时发生,在一定时间段内超过使用量阈值。这些警报也可以产生给客户的通知。
2.3.3. 变更管理 复制链接链接已复制到粘贴板!
本节论述了如何管理集群和配置更改、补丁和发行版本策略。
2.3.3.1. 客户发起的更改 复制链接链接已复制到粘贴板!
您可以使用自助服务功能(如集群部署、worker 节点扩展或集群删除)启动更改。
更改历史记录在 OpenShift Cluster Manager Overview 选项卡中的 Cluster History 部分中捕获,供您查看。更改历史记录包括但不仅限于,日志来自以下变化:
- 添加或删除身份提供程序
-
在
dedicated-admins
组中添加或移除用户 - 扩展集群计算节点
- 扩展集群负载均衡器
- 扩展集群持久性存储
- 升级集群
您可以通过避免以下组件的 OpenShift Cluster Manager 中的更改来实现维护排除:
- 删除集群
- 添加、修改或删除身份提供程序
- 从提升的组中添加、修改或删除用户
- 安装或删除附加组件
- 修改集群网络配置
- 添加、修改或删除机器池
- 启用或禁用用户工作负载监控
- 启动升级
要强制实施维护排除,请确保禁用了机器池自动扩展或自动升级策略。在维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。
2.3.3.2. 红帽发起的更改 复制链接链接已复制到粘贴板!
红帽站点可靠性工程 (SRE) 使用 GitOps 工作流管理 OpenShift Dedicated 的基础架构、代码和配置,并完全自动化的 CI/CD 管道。此过程可确保红帽可以持续地引入服务改进,而不影响客户。
每次建议的更改都会在检查后立即执行一系列自动验证。然后将更改部署到临时环境,在其中进行自动集成测试。最后,更改会部署到生产环境。每个步骤都完全自动化。
授权的 SRE 审查程序必须为每个步骤批准改进。建议者不能与提议更改的单独人员相同。所有更改和批准均作为 GitOps 工作流的一部分完全可审核。
使用功能标记逐步将某些更改发布到生产环境,以控制新功能对指定集群或客户的可用性。
2.3.3.3. 补丁管理 复制链接链接已复制到粘贴板!
OpenShift Container Platform 软件和底层不可变 Red Hat Enterprise Linux CoreOS (RHCOS) 操作系统镜像针对常规 z-stream 升级过程中的漏洞和漏洞进行补丁。在 OpenShift Container Platform 文档中了解更多有关 RHCOS 架构 的信息。
2.3.3.4. 发行管理 复制链接链接已复制到粘贴板!
红帽不会自动升级集群。您可以使用 OpenShift Cluster Manager Web 控制台调度定期升级集群(周期性升级),或使用 OpenShift Cluster Manager web 控制台调度一次(计算升级)一次。只有集群受严重影响 CVE 的影响时,红帽才会强制将集群升级到新的 z-stream 版本。您可以在 OpenShift Cluster Manager web 控制台中查看所有集群升级事件的历史记录。有关发行版本的更多信息,请参阅 生命周期策略。
2.3.4. 安全和合规性 复制链接链接已复制到粘贴板!
安全和合规性和合规性包括实施安全控制和合规认证等任务。
2.3.4.1. 数据分类 复制链接链接已复制到粘贴板!
红帽定义并遵循一个数据分类标准,以确定数据的敏感度,并强调所收集、使用、传输、存储和处理数据的保密性和完整性的固有风险。客户拥有的数据被分类为最高水平的敏感度和处理要求。
2.3.4.2. 数据管理 复制链接链接已复制到粘贴板!
OpenShift Dedicated 使用 AWS 密钥管理服务(KMS)和 Google Cloud KMS 等云供应商服务,以帮助安全地管理持久数据的加密密钥。这些密钥用于加密所有 control plane、基础架构和 worker 节点根卷。客户可在安装时为加密根卷指定自己的 KMS 密钥。持久性卷(PV)也使用 KMS 进行密钥管理。通过创建一个新的 StorageClass
引用 KMS 密钥 Amazon Resource Name (ARN)或 ID,用户可以指定自己的 KMS 密钥进行加密 PV。
当客户删除其 OpenShift Dedicated 集群时,所有集群数据都会被永久删除,包括 control plane 数据卷和客户应用程序数据卷,如持久性卷(PV)。
2.3.4.3. 漏洞管理 复制链接链接已复制到粘贴板!
红帽使用行业标准工具对 OpenShift Dedicated 执行定期漏洞扫描。识别的漏洞将根据严重性的时间表跟踪其补救。记录漏洞扫描和修复活动,以供在合规认证审计课程中由第三方评估商进行验证。
2.3.4.4. 网络安全性 复制链接链接已复制到粘贴板!
2.3.4.4.1. 防火墙和 DDoS 保护 复制链接链接已复制到粘贴板!
每个 OpenShift Dedicated 集群都由云基础架构级别的安全网络配置使用防火墙规则(AWS 安全组或 Google Cloud Compute Engine 防火墙规则)进行保护。AWS 上的 OpenShift Dedicated 客户也会保护对 AWS Shield Standard 的 DDoS 攻击。同样,OpenShift Dedicated 在 GCP 上使用的所有 GCP 负载均衡器和公共 IP 地址都可以通过 Google Cloud Armor Standard 保护 DDoS 的攻击。
2.3.4.4.2. 私有集群和网络连接 复制链接链接已复制到粘贴板!
客户可以选择配置其 OpenShift Dedicated 集群端点(Web 控制台、API 和应用程序路由器),以便无法从互联网访问集群 control plane 或应用程序。
对于 AWS,用户可以通过 AWS VPC 对等、AWS VPN 或 AWS Direct Connect 配置私有网络连接。
2.3.4.4.3. 集群网络访问控制 复制链接链接已复制到粘贴板!
客户可以通过每个项目配置细粒度网络访问控制规则。
2.3.4.5. penetration 测试 复制链接链接已复制到粘贴板!
红帽对 OpenShift Dedicated 执行定期测试。测试由独立的内部团队使用行业标准工具和最佳实践进行。
发现的任何问题会根据严重性排列优先级。属于开源项目的所有问题都与社区共享以解决问题。
2.3.4.6. Compliance 复制链接链接已复制到粘贴板!
OpenShift Dedicated 遵循常见的安全和控制最佳实践。下表中概述了认证。
Compliance | AWS 上的 OpenShift Dedicated | GCP 上的 OpenShift Dedicated |
---|---|---|
HIPAA 认证的 | 是(仅限客户云订阅) | 是(仅限客户云订阅) |
ISO 27001 | 是 | 是 |
ISO 27017 | 是 | 是 |
ISO 27018 | 是 | 是 |
PCI DSS 4.0 | 是 | 是 |
SOC 1 类型 2 | 是 | 是 |
SOC 2 类型 2 | 是 | 是 |
SOC 3 | 是 | 是 |
2.3.5. 灾难恢复 复制链接链接已复制到粘贴板!
OpenShift Dedicated 为 pod、worker 节点、基础架构节点、control plane 节点和可用区级别的故障提供灾难恢复。
所有灾难恢复要求客户使用最佳实践来部署高可用性应用程序、存储和集群架构(例如,单区部署与多区部署)来考虑所需的可用性级别。
当可用性区域或区域中断时,一个单区集群不会提供灾难避免或恢复。带有客户维护故障转移的多个单区集群可以在区域或区域级别考虑停机。
当完整区域中断时,一个多区集群不会提供灾难避免或恢复。多个带有客户维护故障转移的多区集群可以考虑区域级别的中断。