第 28 章 查找 Kafka 重启的信息
当 Cluster Operator 重启了 OpenShift 集群中的一个 Kafka pod 后,它会将 OpenShift 事件发送到 pod 的命名空间中,解释 pod 重启的原因。为了帮助了解集群行为,您可以从命令行检查重启事件。
您可以使用 Prometheus 等指标集合工具导出和监控重启事件。使用带有 事件导出器 的指标工具,该导出可以以合适的格式导出输出。
28.1. 重启事件的原因
Cluster Operator 因特定原因启动重启事件。您可以通过获取重启事件的信息来检查原因。
事件 | 描述 |
---|---|
CaCertHasOldGeneration | pod 仍然使用使用旧 CA 签名的服务器证书,因此需要作为证书更新的一部分重启。 |
CaCertRemoved | 已过期的 CA 证书已被删除,pod 被重启来使用当前证书运行。 |
CaCertRenewed | CA 证书已更新,pod 被重启来使用更新的证书运行。 |
ClientCaCertKeyReplaced | 用于为客户端 CA 证书签名的密钥已被替换,pod 作为 CA 续订服务器的一部分被重启。 |
ClusterCaCertKeyReplaced | 用于为集群的 CA 证书签名的密钥已被替换,pod 作为 CA 续订服务器过程的一部分被重启。 |
ConfigChangeRequiresRestart | 有些 Kafka 配置属性会动态更改,但有些 Kafka 配置属性需要重启代理。 |
FileSystemResizeNeeded | 增加文件系统大小,需要重启来应用它。 |
KafkaCertificatesChanged | Kafka 代理使用的一个或多个 TLS 证书已更新,需要使用重启。 |
ManualRollingUpdate |
用户标注了 pod,或 |
PodForceRestartOnError | 发生一个错误,需要 pod 重启才能重新显示。 |
PodHasOldRevision |
在 Kafka 卷中添加或删除磁盘,需要重启来应用更改。使用 |
PodHasOldRevision |
pod 是更新成员的 |
PodStuck | pod 仍然处于待处理状态,且不会调度或无法调度,因此 Operator 会在最终尝试运行时重启 pod。 |
PodUnresponsive | Apache Kafka 的 Streams 无法连接到 pod,这可能代表一个代理无法正确启动,因此 Operator 会在尝试解决这个问题时重启它。 |