2.3. 了解 OpenShift Dedicated 的进程和安全性
2.3.1. 检查和操作集群通知
集群通知是有关集群状态、健康或性能的信息。
集群通知是 Red Hat Site Reliability Engineering (SRE)与您有关受管集群健康状况的主要方法。SRE 也可能使用集群通知来提示您执行操作,以解决或防止集群出现问题。
集群所有者和管理员必须定期检查和操作集群通知,以确保集群保持健康且受支持。
您可以在集群的 Cluster history 选项卡中查看 Red Hat Hybrid Cloud Console 中的集群通知。默认情况下,只有集群所有者接收集群通知作为电子邮件。如果其他用户需要接收集群通知电子邮件,请将每个用户添加为集群的通知联系人。
2.3.1.1. 集群通知策略
集群通知旨在让您了解集群的健康状况以及影响它的高影响事件。
大多数集群通知都会自动生成并自动发送,以确保您立即了解集群状态的问题或重要更改。
在某些情况下,Red Hat Site Reliability Engineering (SRE)创建并发送集群通知,以便为复杂的问题提供额外的上下文和指导。
集群通知不会针对低影响的事件、低风险安全更新、日常操作和维护,或由 SRE 快速解决的临时问题发送。
红帽服务在以下情况下自动发送通知:
- 远程健康监控或环境验证检查会检测集群中的问题,例如当 worker 节点有低磁盘空间时。
- 大量的集群生命周期事件(例如调度维护或升级时),或者集群操作会受到事件的影响,但不需要客户干预。
- 大量的集群管理更改,例如,当集群所有权或管理控制从一个用户转移到另一个用户时。
- 您的集群订阅会被更改或更新,例如,当红帽对集群进行订阅条款或功能的更新时。
SRE 在以下情况下创建和发送通知:
- 事件会导致降级或中断会影响集群的可用性或性能,例如,您的云供应商有区域中断。SRE 发送后续通知以告知您事件解析进度以及事件被解决的时间。
- 集群中检测到安全漏洞、安全漏洞或异常活动。
- 红帽检测到您所做的更改正在创建,或可能会导致集群不稳定。
- 红帽检测到您的工作负载会导致集群中的性能下降或不稳定。
2.3.2. 事件和操作管理
本文档详细介绍了 OpenShift Dedicated 管理服务的职责。云提供商负责保护运行云提供商所提供的服务的硬件基础架构。客户负责客户应用程序数据的事件和操作管理,以及客户为集群网络或虚拟网络配置的任何自定义网络。
2.3.2.1. 平台监控
红帽站点可靠性工程师(SRE)为所有 OpenShift Dedicated 集群组件、SRE 服务和底层云供应商帐户维护集中监控和警报系统。平台审计日志可以安全地转发到集中式 SIEM (安全信息和事件监控)系统,其中可能会触发 SRE 团队配置的警报,也可以手动审核。审计日志保留在 SIEM 中一年。当集群被删除时,给定集群的审计日志不会被删除。
2.3.2.2. 事件管理
事件是导致一个或多个红帽服务降级或中断事件。事件可以由客户或客户体验与参与(CEE)成员通过支持问题单、直接由集中式监控和警报系统或由 SRE 团队的成员直接提升。
根据服务和客户的影响,事件会按照严重性进行分级。
如何由红帽管理新事件的一般工作流:
- SRE 第一次响应器会警告新的事件,并开始进行初始调查。
- 在初始调查后,会为事件分配一个事件,领导事件协调恢复工作。
- 事件线索管理关于恢复的所有通信和协调,包括相关的通知和支持问题单更新。
- 事件已被恢复。
- 其事件被记录,一个根本原因分析在事件的 5 个工作日内进行。
- 根本原因分析 (RCA) 草案文档在事件的 7 个工作日内与客户共享。
2.3.2.3. 备份和恢复
所有 OpenShift Dedicated 集群都使用云供应商快照备份。值得注意的是,这不包括存储在持久性卷 (PV) 上的客户数据。所有快照都使用适当的云供应商快照 API,并上传到与集群相同的帐户中的安全对象存储桶(AWS 中的S3 和 Google Cloud 中的 GCS)中。
组件 | 快照频率 | 保留 | 备注 |
---|---|---|---|
完整对象存储备份 | 每日 | 7 天 | 这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度中没有备份 PV。 |
每周 | 30 天 | ||
完整对象存储备份 | 每小时 | 24 小时 | 这是所有 Kubernetes 对象(如 etcd)的完整备份。这个备份调度中没有备份 PV。 |
节点根卷 | Never | N/A | 节点被视为是短期的。节点的 root 卷应当不重要。 |
- 红帽不提交任何恢复点目标 (RPO) 或恢复时间目标 (RTO)。
- 客户负责对其数据的定期备份
- 客户应部署带有 Kubernetes 最佳实践工作负载的 multi-AZ 集群,以确保在区域内高可用性。
- 如果整个云区域不可用,客户必须在不同的区域安装新集群,并使用备份数据恢复其应用程序。
2.3.2.4. 集群容量
评估和管理集群容量是由红帽和客户之间共享的责任。Red Hat SRE 负责集群中所有 control plane 和基础架构节点的容量。
红帽 SRE 还会评估升级过程中的集群容量,并响应集群警报。集群升级对容量的影响会被评估为升级测试过程的一部分,以确保对集群的新添加添加的负面影响。在集群升级过程中,添加了额外的 worker 节点,以确保在升级过程中保留集群的总容量。
SRE 人员的容量评估也会在响应集群中的警报时发生,在一定时间段内超过使用量阈值。这些警报也可以产生给客户的通知。
2.3.3. 变更管理
本节论述了如何管理集群和配置更改、补丁和发行版本策略。
2.3.3.1. 客户发起的更改
您可以使用自助服务功能(如集群部署、worker 节点扩展或集群删除)启动更改。
更改历史记录在 OpenShift Cluster Manager Overview 选项卡中的 Cluster History 部分中捕获,供您查看。更改历史记录包括但不仅限于,日志来自以下变化:
- 添加或删除身份提供程序
-
在
dedicated-admins
组中添加或移除用户 - 扩展集群计算节点
- 扩展集群负载均衡器
- 扩展集群持久性存储
- 升级集群
您可以通过避免以下组件的 OpenShift Cluster Manager 中的更改来实现维护排除:
- 删除集群
- 添加、修改或删除身份提供程序
- 从提升的组中添加、修改或删除用户
- 安装或删除附加组件
- 修改集群网络配置
- 添加、修改或删除机器池
- 启用或禁用用户工作负载监控
- 启动升级
要强制实施维护排除,请确保禁用了机器池自动扩展或自动升级策略。在维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。
2.3.3.2. 红帽发起的更改
红帽站点可靠性工程 (SRE) 使用 GitOps 工作流管理 OpenShift Dedicated 的基础架构、代码和配置,并完全自动化的 CI/CD 管道。此过程可确保红帽可以持续地引入服务改进,而不影响客户。
每次建议的更改都会在检查后立即执行一系列自动验证。然后将更改部署到临时环境,在其中进行自动集成测试。最后,更改会部署到生产环境。每个步骤都完全自动化。
授权的 SRE 审查程序必须为每个步骤批准改进。建议者不能与提议更改的单独人员相同。所有更改和批准均作为 GitOps 工作流的一部分完全可审核。
使用功能标记逐步将某些更改发布到生产环境,以控制新功能对指定集群或客户的可用性。
2.3.3.3. 补丁管理
OpenShift Container Platform 软件和底层不可变 Red Hat Enterprise Linux CoreOS (RHCOS) 操作系统镜像针对常规 z-stream 升级过程中的漏洞和漏洞进行补丁。在 OpenShift Container Platform 文档中了解更多有关 RHCOS 架构 的信息。
2.3.3.4. 发行管理
红帽不会自动升级集群。您可以使用 OpenShift Cluster Manager Web 控制台调度定期升级集群(周期性升级),或使用 OpenShift Cluster Manager web 控制台调度一次(计算升级)一次。只有集群受严重影响 CVE 的影响时,红帽才会强制将集群升级到新的 z-stream 版本。您可以在 OpenShift Cluster Manager web 控制台中查看所有集群升级事件的历史记录。有关发行版本的更多信息,请参阅 生命周期策略。
2.3.4. 安全和合规性
安全和合规性和合规性包括实施安全控制和合规认证等任务。
2.3.4.1. 数据分类
红帽定义并遵循一个数据分类标准,以确定数据的敏感度,并强调所收集、使用、传输、存储和处理数据的保密性和完整性的固有风险。客户拥有的数据被分类为最高水平的敏感度和处理要求。
2.3.4.2. 数据管理
OpenShift Dedicated 使用 AWS 密钥管理服务(KMS)和 Google Cloud KMS 等云供应商服务,以帮助安全地管理持久数据的加密密钥。这些密钥用于加密所有 control plane、基础架构和 worker 节点根卷。客户可在安装时为加密根卷指定自己的 KMS 密钥。持久性卷(PV)也使用 KMS 进行密钥管理。通过创建一个新的 StorageClass
引用 KMS 密钥 Amazon Resource Name (ARN)或 ID,用户可以指定自己的 KMS 密钥进行加密 PV。
当客户删除其 OpenShift Dedicated 集群时,所有集群数据都会被永久删除,包括 control plane 数据卷和客户应用程序数据卷,如持久性卷(PV)。
2.3.4.3. 漏洞管理
红帽使用行业标准工具对 OpenShift Dedicated 执行定期漏洞扫描。识别的漏洞将根据严重性的时间表跟踪其补救。记录漏洞扫描和修复活动,以供在合规认证审计课程中由第三方评估商进行验证。
2.3.4.4. 网络安全性
2.3.4.4.1. 防火墙和 DDoS 保护
每个 OpenShift Dedicated 集群都由云基础架构级别的安全网络配置使用防火墙规则(AWS 安全组或 Google Cloud Compute Engine 防火墙规则)进行保护。AWS 上的 OpenShift Dedicated 客户也会保护对 AWS Shield Standard 的 DDoS 攻击。同样,OpenShift Dedicated 在 GCP 上使用的所有 GCP 负载均衡器和公共 IP 地址都可以通过 Google Cloud Armor Standard 保护 DDoS 的攻击。
2.3.4.4.2. 私有集群和网络连接
客户可以选择配置其 OpenShift Dedicated 集群端点(Web 控制台、API 和应用程序路由器),以便无法从互联网访问集群 control plane 或应用程序。
对于 AWS,用户可以通过 AWS VPC 对等、AWS VPN 或 AWS Direct Connect 配置私有网络连接。
2.3.4.4.3. 集群网络访问控制
客户可以通过每个项目配置细粒度网络访问控制规则。
2.3.4.5. penetration 测试
红帽对 OpenShift Dedicated 执行定期测试。测试由独立的内部团队使用行业标准工具和最佳实践进行。
发现的任何问题会根据严重性排列优先级。属于开源项目的所有问题都与社区共享以解决问题。
2.3.4.6. Compliance
OpenShift Dedicated 遵循常见的安全和控制最佳实践。下表中概述了认证。
Compliance | AWS 上的 OpenShift Dedicated | GCP 上的 OpenShift Dedicated |
---|---|---|
HIPAA 认证的 | 是(仅限客户云订阅) | 是(仅限客户云订阅) |
ISO 27001 | 是 | 是 |
PCI DSS | 是 | 是 |
SOC 2 类型 2 | 是 | 是 |
其他资源
- 有关 SRE 驻留的信息,请参阅 Red Hat Subprocessor 列表。
2.3.5. 灾难恢复
OpenShift Dedicated 为 pod、worker 节点、基础架构节点、control plane 节点和可用区级别的故障提供灾难恢复。
所有灾难恢复要求客户使用最佳实践来部署高可用性应用程序、存储和集群架构(例如,单区部署与多区部署)来考虑所需的可用性级别。
当可用性区域或区域中断时,一个单区集群不会提供灾难避免或恢复。带有客户维护故障转移的多个单区集群可以在区域或区域级别考虑停机。
当完整区域中断时,一个多区集群不会提供灾难避免或恢复。多个带有客户维护故障转移的多区集群可以考虑区域级别的中断。
2.3.6. 其他资源
- 有关红帽站点可靠性工程(SRE)团队访问权限的更多信息,请参阅 身份和访问管理。