2.2. AWS 上的 Red Hat OpenShift Service 职责概述
本文档概述了 Red Hat、Amazon Web Services (AWS)和 Red Hat OpenShift Service on AWS (ROSA)托管服务的客户职责。
2.2.1. Red Hat OpenShift Service on AWS 的共享职责
虽然红帽和 Amazon Web Services (AWS)管理 Red Hat OpenShift Service on AWS 服务,但客户会共享某些职责。AWS 服务上的 Red Hat OpenShift Service 可远程访问,托管在公有云资源上,在客户拥有的 AWS 帐户中创建,并具有红帽拥有的底层平台和数据安全性。
如果已将 cluster-admin
角色添加到用户,请参阅 Red Hat Enterprise Agreement 附录 4 (在线订阅服务) 中的职责和排除备注。
资源 | 事件和操作管理 | 变更管理 | 访问和身份授权 | 安全和合规性 | 灾难恢复 |
---|---|---|---|---|---|
客户数据 | 客户 | 客户 | 客户 | 客户 | 客户 |
客户应用程序 | 客户 | 客户 | 客户 | 客户 | 客户 |
开发人员服务 | 客户 | 客户 | 客户 | 客户 | 客户 |
平台监控 | Red Hat | Red Hat | Red Hat | Red Hat | Red Hat |
日志记录 | Red Hat | 红帽和客户 | 红帽和客户 | 红帽和客户 | Red Hat |
应用程序网络 | 红帽和客户 | 红帽和客户 | 红帽和客户 | Red Hat | Red Hat |
集群网络 | Red Hat [1] | 红帽和客户 [2] | 红帽和客户 | Red Hat [1] | Red Hat [1] |
虚拟网络管理 | 红帽和客户 | 红帽和客户 | 红帽和客户 | 红帽和客户 | 红帽和客户 |
虚拟计算管理(control plane、基础架构和 worker 节点) | Red Hat | Red Hat | Red Hat | Red Hat | Red Hat |
集群版本 | Red Hat | 红帽和客户 | Red Hat | Red Hat | Red Hat |
容量管理 | Red Hat | 红帽和客户 | Red Hat | Red Hat | Red Hat |
虚拟存储管理 | Red Hat | Red Hat | Red Hat | Red Hat | Red Hat |
AWS 软件(公共 AWS 服务) | AWS | AWS | AWS | AWS | AWS |
硬件/AWS 全局基础架构 | AWS | AWS | AWS | AWS | AWS |
- 如果客户选择使用自己的 CNI 插件,则责任会转移到客户。
- 在置备集群前,客户必须配置防火墙以授予所需的 OpenShift 和 AWS 域和端口的访问权限。如需更多信息,请参阅"AWS 防火墙先决条件"。
其他资源
2.2.3. 检查和操作集群通知
集群通知是有关集群状态、健康或性能的信息。
集群通知是 Red Hat Site Reliability Engineering (SRE)与您有关受管集群健康状况的主要方法。SRE 也可能使用集群通知来提示您执行操作,以解决或防止集群出现问题。
集群所有者和管理员必须定期检查和操作集群通知,以确保集群保持健康且受支持。
您可以在集群的 Cluster history 选项卡中查看 Red Hat Hybrid Cloud Console 中的集群通知。默认情况下,只有集群所有者接收集群通知作为电子邮件。如果其他用户需要接收集群通知电子邮件,请将每个用户添加为集群的通知联系人。
2.2.3.1. 集群通知策略
集群通知旨在让您了解集群的健康状况以及影响它的高影响事件。
大多数集群通知都会自动生成并自动发送,以确保您立即了解集群状态的问题或重要更改。
在某些情况下,Red Hat Site Reliability Engineering (SRE)创建并发送集群通知,以便为复杂的问题提供额外的上下文和指导。
集群通知不会针对低影响的事件、低风险安全更新、日常操作和维护,或由 SRE 快速解决的临时问题发送。
红帽服务在以下情况下自动发送通知:
- 远程健康监控或环境验证检查会检测集群中的问题,例如当 worker 节点有低磁盘空间时。
- 大量的集群生命周期事件(例如调度维护或升级时),或者集群操作会受到事件的影响,但不需要客户干预。
- 大量的集群管理更改,例如,当集群所有权或管理控制从一个用户转移到另一个用户时。
- 您的集群订阅会被更改或更新,例如,当红帽对集群进行订阅条款或功能的更新时。
SRE 在以下情况下创建和发送通知:
- 事件会导致降级或中断会影响集群的可用性或性能,例如,您的云供应商有区域中断。SRE 发送后续通知以告知您事件解析进度以及事件被解决的时间。
- 集群中检测到安全漏洞、安全漏洞或异常活动。
- 红帽检测到您所做的更改正在创建,或可能会导致集群不稳定。
- 红帽检测到您的工作负载会导致集群中的性能下降或不稳定。
2.2.4. 事件和操作管理
红帽负责查看默认平台网络所需的服务组件。AWS 负责保护运行 AWS 云中提供的所有服务的硬件基础架构。客户负责客户应用程序数据的事件和操作管理,以及客户为集群网络或虚拟网络配置的任何自定义网络。
资源 | 服务职责 | 客户职责 |
---|---|---|
应用程序网络 | Red Hat
|
|
集群网络 | Red Hat
|
|
虚拟网络管理 | Red Hat
|
|
虚拟存储管理 | Red Hat
|
|
平台监控 | Red Hat
| |
事件管理 | Red Hat
|
|
基础架构和数据弹性 | Red Hat
|
|
集群容量 | Red Hat
| |
AWS 软件(公共 AWS 服务) | AWS
|
|
硬件/AWS 全局基础架构 | AWS
|
|
2.2.4.1. 平台监控
平台审计日志安全转发到集中式安全信息和事件监控 (SIEM) 系统,其中可能会触发 SRE 团队配置的警报,也可以手动查看。审计日志保留在 SIEM 系统中一年。当集群被删除时,给定集群的审计日志不会被删除。
2.2.4.2. 事件管理
事件是导致一个或多个红帽服务降级或中断的事件。事件可以由客户或客户体验与参与(CEE)成员通过支持问题单、直接由集中式监控和警报系统或由 SRE 团队的成员直接提升。
根据服务和客户的影响,事件会按照严重性进行分级。
在管理新事件时,红帽使用以下常规工作流:
- SRE 第一次响应器会警告新的事件,并开始进行初始调查。
- 在初始调查后,会为事件分配一个事件,领导事件协调恢复工作。
- 事件线索管理关于恢复的所有通信和协调,包括相关的通知和支持问题单更新。
- 事件已被恢复。
- 其事件被记录,一个根本原因分析 (RCA) 在事件的 5 个工作日内进行。
- 在事件 7 个工作日内将与客户共享 RCA 草案。
红帽还协助客户在支持问题单中引发的事件。红帽可以帮助活动,包括但不限于:
- Forensic 收集,包括隔离虚拟计算
- 指导计算镜像集合
- 提供收集的审计日志
2.2.4.3. 集群容量
集群升级对容量的影响会被评估为升级测试过程的一部分,以确保对集群的新添加添加的负面影响。在集群升级过程中,添加了额外的 worker 节点,以确保在升级过程中保留集群的总容量。
红帽 SRE 员工的容量评估也会在特定时间段内超过使用量阈值后对集群发出的警报。这些警报也可以产生给客户的通知。
2.2.5. 变更管理
本节论述了如何管理集群和配置更改、补丁和发行版本策略。
红帽负责启用客户控制的集群基础架构和服务,以及维护 control plane 节点、基础架构节点和服务以及 worker 节点的版本。AWS 负责保护运行 AWS 云中提供的所有服务的硬件基础架构。客户负责启动基础架构更改请求,并在集群中安装和维护可选服务和网络配置,以及客户数据和客户应用程序的所有更改。
2.2.5.1. 客户发起的更改
您可以使用自助服务功能(如集群部署、worker 节点扩展或集群删除)启动更改。
更改历史记录在 OpenShift Cluster Manager Overview 选项卡中的 Cluster History 部分中捕获,供您查看。更改历史记录包括但不仅限于,日志来自以下变化:
- 添加或删除身份提供程序
-
在
dedicated-admins
组中添加或移除用户 - 扩展集群计算节点
- 扩展集群负载均衡器
- 扩展集群持久性存储
- 升级集群
您可以通过避免以下组件的 OpenShift Cluster Manager 中的更改来实现维护排除:
- 删除集群
- 添加、修改或删除身份提供程序
- 从提升的组中添加、修改或删除用户
- 安装或删除附加组件
- 修改集群网络配置
- 添加、修改或删除机器池
- 启用或禁用用户工作负载监控
- 启动升级
要强制实施维护排除,请确保禁用了机器池自动扩展或自动升级策略。在维护排除后,根据需要继续启用机器池自动扩展或自动升级策略。
2.2.5.2. 红帽发起的更改
红帽站点可靠性工程(SRE)使用 GitOps 工作流管理 AWS 上的基础架构、代码和配置 Red Hat OpenShift Service,并完全自动化的 CI/CD 管道。此过程可确保红帽可以持续地引入服务改进,而不影响客户。
每次建议的更改都会在检查后立即执行一系列自动验证。然后将更改部署到临时环境,在其中进行自动集成测试。最后,更改会部署到生产环境。每个步骤都完全自动化。
授权的 SRE 审查程序必须为每个步骤批准改进。建议者不能与提议更改的单独人员相同。所有更改和批准均作为 GitOps 工作流的一部分完全可审核。
使用功能标记逐步将某些更改发布到生产环境,以控制新功能对指定集群或客户的可用性。
2.2.5.3. 补丁管理
OpenShift Container Platform 软件和底层不可变 Red Hat CoreOS (RHCOS)操作系统镜像对常规 z-stream 升级过程中的漏洞和漏洞进行补丁。在 OpenShift Container Platform 文档中了解更多有关 RHCOS 架构 的信息。
2.2.5.4. 发行管理
红帽不会自动升级集群。您可以使用 OpenShift Cluster Manager Web 控制台调度定期升级集群(周期性升级),或使用 OpenShift Cluster Manager web 控制台调度一次(计算升级)一次。只有在集群受严重影响 CVE 影响时,红帽才会强制将集群升级到新的 z-stream 版本。
因为需要的权限可以在 y-stream 版本之间更改,所以可能需要更新策略,然后才能执行升级。因此,您无法使用 STS 在 ROSA 集群上调度重复升级。
您可以在 OpenShift Cluster Manager web 控制台中查看所有集群升级事件的历史记录。有关发行版本的更多信息,请参阅生命周期策略。
资源 | 服务职责 | 客户职责 |
---|---|---|
日志记录 | Red Hat
|
|
应用程序网络 | Red Hat
|
|
集群网络 | Red Hat
|
|
虚拟网络管理 | Red Hat
|
|
虚拟计算管理 | Red Hat
|
|
集群版本 | Red Hat
|
|
容量管理 | Red Hat
|
|
虚拟存储管理 | Red Hat
|
|
AWS 软件(公共 AWS 服务) | AWS Compute: 提供 Amazon EC2 服务,用于 ROSA control plane、基础架构和 worker 节点。 Storage : 提供 Amazon EBS,供 ROSA 用于为集群置备本地节点存储和持久性卷存储。 存储: 提供 Amazon S3,用于 ROSA 服务的内置镜像 registry。 网络: 提供以下 AWS 云服务,供 ROSA 用于满足虚拟网络基础架构需求:
网络: 提供以下 AWS 服务,客户可以选择与 ROSA 集成:
|
|
硬件/AWS 全局基础架构 | AWS
|
|
其他资源
2.2.6. 安全和合规性
下表概述了与安全性和监管合规性相关的职责:
资源 | 服务职责 | 客户职责 |
---|---|---|
日志记录 | Red Hat
|
|
虚拟网络管理 | Red Hat
|
|
虚拟存储管理 | Red Hat
|
|
虚拟计算管理 | Red Hat
|
|
AWS 软件(公共 AWS 服务) | AWS compute: 安全 Amazon EC2,用于 ROSA control plane、基础架构和 worker 节点。如需更多信息,请参阅 Amazon EC2 用户指南中的 Amazon EC2 中的基础架构安全性。 存储: 安全 Amazon Elastic Block Store (EBS),用于 ROSA control plane、基础架构和 worker 节点卷,以及 Kubernetes 持久性卷。如需更多信息,请参阅 Amazon EC2 用户指南中的 Amazon EC2 中的数据保护。 Storage : 提供 AWS KMS,ROSA 用于加密 control plane、基础架构和 worker 节点卷和持久性卷。如需更多信息,请参阅 Amazon EC2 用户指南中的 Amazon EBS 加密。 存储: 安全 Amazon S3,用于 ROSA 服务的内置容器镜像 registry。如需更多信息,请参阅 S3 用户指南中的 Amazon S3 安全性。 网络: 提供安全功能和服务,以提高 AWS 全局基础架构上的隐私和控制网络访问,包括建立在 Amazon VPC 中的网络防火墙、私有或专用网络连接,以及 AWS 安全设施之间所有流量自动加密。如需更多信息,请参阅 AWS 安全介绍中的 AWS 共享责任模型 和基础架构安全性。 |
|
硬件/AWS 全局基础架构 | AWS
|
|
2.2.7. 灾难恢复
灾难恢复包括数据和配置备份、将数据和配置复制到灾难恢复环境中,并在灾难恢复环境中进行故障转移。
Red Hat OpenShift Service on AWS (ROSA)为 pod、worker 节点、基础架构节点、control plane 节点和可用区级别的故障提供灾难恢复。
所有灾难恢复要求客户使用最佳实践来部署高可用性应用程序、存储和集群架构,如单区部署或多区部署等,以考虑所需的可用性级别。
当可用性区域或区域中断时,一个单区集群不会提供灾难避免或恢复。带有客户维护故障转移的多个单区集群可以在区域或区域级别考虑停机。
当完整区域中断时,一个多区集群不会提供灾难避免或恢复。多个带有客户维护故障转移的多区集群可以考虑区域级别的中断。
资源 | 服务职责 | 客户职责 |
---|---|---|
虚拟网络管理 | Red Hat
|
|
虚拟存储管理 | Red Hat
|
|
虚拟计算管理 | Red Hat
|
|
AWS 软件(公共 AWS 服务) | AWS compute: 提供支持数据弹性(如 Amazon EBS 快照和 Amazon EC2 自动扩展)的 Amazon EC2 功能。如需更多信息,请参阅 EC2 用户指南中的 Amazon EC2 中的弹性。 Storage : 提供 ROSA 服务和客户通过 Amazon EBS 卷快照备份集群中的 Amazon EBS 卷的功能。 存储: 有关支持数据弹性的 Amazon S3 功能的信息,请参阅 Amazon S3 中的弹性。 网络: 有关支持数据弹性的 Amazon VPC 功能的信息,请参阅 Amazon VPC 用户指南中的 Amazon Virtual Private Cloud 中的 Resilience。 |
|
硬件/AWS 全局基础架构 | AWS
|
|
其他资源
2.2.8. 额外的客户对数据和应用程序的职责
客户负责他们部署到 Red Hat OpenShift Service on AWS 上的应用程序、工作负载和数据。但是,红帽和 AWS 提供了各种工具来帮助客户管理平台上的数据和应用程序。
资源 | Red Hat 和 AWS | 客户职责 |
---|---|---|
客户数据 | Red Hat
AWS
|
|
客户应用程序 | Red Hat
AWS
|
|