1.2. 从集群通知中预期的内容
作为集群管理员,您需要了解何时和为什么发送集群通知及其类型和严重性级别,以便有效地了解集群的健康和管理需求。
1.2.1. 集群通知策略
集群通知旨在让您了解集群的健康状况以及影响它的高影响事件。
大多数集群通知都会自动生成并自动发送,以确保您立即了解集群状态的问题或重要更改。
在某些情况下,Red Hat Site Reliability Engineering (SRE)创建并发送集群通知,以便为复杂的问题提供额外的上下文和指导。
集群通知不会针对低影响的事件、低风险安全更新、日常操作和维护,或由 SRE 快速解决的临时问题发送。
红帽服务在以下情况下自动发送通知:
- 远程健康监控或环境验证检查会检测集群中的问题,例如当 worker 节点有低磁盘空间时。
- 大量的集群生命周期事件(例如调度维护或升级时),或者集群操作会受到事件的影响,但不需要客户干预。
- 大量的集群管理更改,例如,当集群所有权或管理控制从一个用户转移到另一个用户时。
- 您的集群订阅会被更改或更新,例如,当红帽对集群进行订阅条款或功能的更新时。
SRE 在以下情况下创建和发送通知:
- 事件会导致降级或中断会影响集群的可用性或性能,例如,您的云供应商有区域中断。SRE 发送后续通知以告知您事件解析进度以及事件被解决的时间。
- 集群中检测到安全漏洞、安全漏洞或异常活动。
- 红帽检测到您所做的更改正在创建,或可能会导致集群不稳定。
- 红帽检测到您的工作负载会导致集群中的性能下降或不稳定。
1.2.2. 集群通知严重性级别
每个集群通知都有一个关联的严重性级别,可帮助您识别对您的业务有最大影响的通知。您可以在 Red Hat Hybrid Cloud Console 的 Cluster history 选项卡中根据 Red Hat Hybrid Cloud Console 中的这些严重性级别过滤集群通知。
红帽对集群通知使用以下严重性级别,从最严重到最严重:
- Critical
- 需要立即操作。服务或集群的一个或多个关键功能无法正常工作,或者将很快停止工作。关键警报足以在调用人员上页面并中断常规工作流。
- 主
- 强烈建议立即采取行动。集群的一个或多个关键功能将很快停止工作。如果问题及时无法及时解决,则可能会造成关键问题。
- Warning
- 尽快采取行动。集群的一个或多个关键功能在最佳上无法正常工作,可能会进一步降级,但不给集群运行造成即时的危险。
- info
- 不需要操作。此严重性不描述需要解决的问题,只有有关有意义的或重要生命周期、服务或集群事件的重要信息。
- Debug
- 不需要操作。调试通知提供有关不太重要的生命周期、服务或集群事件的低级别信息,以帮助调试意外行为。
1.2.3. 集群通知类型
每个集群通知都有一个关联的通知类型,可帮助您识别与您的角色和职责相关的通知。您可以根据 Red Hat Hybrid Cloud Console 中的 Cluster history 选项卡中的这些类型过滤集群通知。
红帽使用以下通知类型来指示通知相关性。
- 容量管理
- 通知与更新、创建或删除节点池、机器池、计算副本或配额(负载均衡器、存储等)相关的事件。
- 集群访问
- 有关添加或删除组、角色或身份提供程序相关的事件通知,例如当 SRE 无法访问集群时,因为 STS 凭证已过期,当 AWS 角色出现配置问题时,或者您添加或删除身份提供程序。
- 集群附加组件
- 有关附加组件的附加管理或升级维护相关的事件通知,例如当安装、升级或删除附加组件时,或者因为未满足要求而无法安装。
- 集群配置
- 集群调整事件、工作负载监控和动态检查的通知。
- 集群生命周期
- 集群或集群资源创建、删除和注册通知,或更改集群或资源状态(如就绪或休眠)。
- 集群网络
- 与集群网络相关的通知,包括 HTTP/S 代理、路由器和入口状态。
- 集群所有权
- 与集群所有权相关的通知,从一个用户传输到另一个用户。
- 集群扩展
- 与更新、创建或删除节点池、机器池、计算副本或配额相关的通知。
- 集群安全性
- 与集群安全性相关的事件(例如,增加访问尝试次数、信任捆绑包的更新或具有安全影响的软件更新)。
- 集群订阅
- 集群过期、试用集群通知或从免费切换到付费。
- 集群更新
- 与升级相关的任何内容,如升级维护或启用。
- 客户支持
- 支持问题单状态的更新。
- 常规通知
- 默认通知类型。这仅用于没有更特定类别的通知。