1.2. 从集群通知中期望什么
作为集群管理员,您需要了解何时发送集群通知,以及它们的类型和严重性级别,以便有效地了解集群的健康状况和管理需求。
1.2.1. 集群通知策略 复制链接链接已复制到粘贴板!
集群通知旨在让您了解集群的健康状况以及影响它的高影响事件。
大多数集群通知都会自动生成并自动发送,以确保立即通知问题或对集群状态的重要更改。
在某些情况下,Red Hat Site Reliability Engineering (SRE)会创建并发送集群通知,以便为复杂的问题提供额外的上下文和指导。
集群通知不会针对低影响事件、低风险安全更新、日常操作和维护或次要的临时问题发送,它们会被 Red Hat SRE 快速解决。
红帽服务在以下情况下自动发送通知:
- 远程健康监控或环境验证检查会检测到集群中的问题,例如当 worker 节点有低磁盘空间时。
- 例如,当调度的维护或升级开始或集群操作受到事件的影响时,会发生大量集群生命周期事件,但不需要客户干预。
- 例如,当集群所有权或管理控制从一个用户传输到另一个用户时,会进行大量集群管理变化。
- 集群订阅会被更改或更新,例如,当红帽对集群提供订阅条款或功能的更新时。
SRE 在以下情况下创建并发送通知:
- 事件会导致影响集群可用性或性能的降级或中断,例如,您的云供应商有一个区域中断。SRE 发送后续通知,以告知您事件解析进度,以及事件解决的时间。
- 在集群中检测到安全漏洞、安全漏洞或异常活动。
- 红帽检测到您所做的更改是创建或可能导致集群不稳定的。
- 红帽检测到您的工作负载是否在集群中造成性能下降或不稳定。
1.2.2. 集群通知严重性级别 复制链接链接已复制到粘贴板!
每个集群通知都有一个关联的严重性级别,可帮助您识别对您的业务有最大影响的通知。您可以根据 Red Hat Hybrid Cloud Console 中的这些严重性级别在集群的 Cluster history 选项卡中过滤集群通知。
红帽对集群通知使用以下严重性级别,从大多数到最严重:
- Critical
- 需要立即操作。服务或集群的一个或多个关键功能无法正常工作,或者将很快停止工作。关键警报非常重要,足以页面调用的员工和中断常规工作流。
- 主
- 强烈建议立即采取措施。集群的一个或多个关键功能将很快停止工作。如果一个主要问题没有及时解决,则可能会导致严重问题。
- Warning
- 尽快需要操作。集群的一个或多个关键功能没有最佳工作,但可能进一步降级,但不给集群正常运行造成直接危险。
- info
- 不需要操作。此严重性不描述需要解决的问题,只有有关有意义的或重要生命周期、服务或集群事件的重要信息。
- Debug
- 不需要操作。调试通知提供有关不太重要的生命周期、服务或集群事件的低级别信息,以帮助调试意外行为。
1.2.3. 集群通知类型 复制链接链接已复制到粘贴板!
每个集群通知都有一个关联的通知类型,可帮助您识别与您的角色和职责相关的通知。您可以根据 Red Hat Hybrid Cloud Console 中的这些类型在集群的 Cluster history 选项卡中过滤集群通知。
红帽使用以下通知类型来指示通知相关性。
- 容量管理
- 通知与更新、创建或删除节点池、机器池、计算副本或配额(负载均衡器、存储等)相关的事件。
- 集群访问
- 有关添加或删除组、角色或身份提供程序的事件通知,例如,当 SRE 无法访问集群时,因为 STS 凭证已过期,当 AWS 角色的配置问题或添加或删除身份提供程序时。
- 集群附加组件
- 与附加组件的附加管理或升级维护相关的事件通知,例如,当安装、升级或删除附加组件时,或者因为不满足要求而无法安装。
- 集群配置
- 集群调优事件、工作负载监控和动态检查的通知。
- 集群生命周期
- 集群或集群资源创建、删除和注册的通知,或更改集群或资源状态(例如,就绪或休眠)。
- 集群网络
- 与集群网络相关的通知,包括 HTTP/S 代理、路由器和入口状态。
- 集群所有权
- 与集群所有权相关的通知从一个用户转移到另一个用户。
- 集群扩展
- 与更新、创建或删除节点池、机器池、计算副本或配额相关的通知。
- 集群安全性
- 与集群安全性相关的事件,例如,增加访问尝试次数、信任捆绑包的更新或具有安全影响的软件更新。
- 集群订阅
- 集群过期、试用集群通知,或者从免费切换到付费。
- 集群更新
- 与升级相关的任何内容,如升级维护或启用。
- 客户支持
- 支持问题单状态更新。
- 常规通知
- 默认通知类型。这仅用于没有更具体的类别的通知。