第 19 章 查找 Kafka 重启信息
当 Cluster Operator 重启了 OpenShift 集群中的一个 Kafka pod 后,它会将 OpenShift 事件发送到 pod 的命名空间中,解释 pod 重启的原因。有关了解集群行为的帮助,您可以从命令行检查重启事件。
您可以使用 Prometheus 等指标集合工具导出和监控重启事件。将 metrics 工具与 事件导出器 一起使用,以适当的格式导出输出。
19.1. 重启事件的原因 复制链接链接已复制到粘贴板!
Cluster Operator 会因为特定原因启动重启事件。您可以通过获取重启事件的信息来检查原因。
给定的原因取决于您是否使用 StrimziPodSet
或 StatefulSet
资源来创建和管理 pod。
StrimziPodSet | StatefulSet | Description |
---|---|---|
CaCertHasOldGeneration | CaCertHasOldGeneration | pod 仍然使用通过旧 CA 签名的服务器证书,因此需要在证书更新过程中重启。 |
CaCertRemoved | CaCertRemoved | 过期的 CA 证书已被删除,pod 会重启以使用当前证书运行。 |
CaCertRenewed | CaCertRenewed | CA 证书已更新,pod 重启以使用更新的证书运行。 |
ClientCaCertKeyReplaced | ClientCaCertKeyReplaced | 用于为客户端 CA 证书签名的密钥已被替换,pod 作为 CA 续订服务器过程的一部分重启。 |
ClusterCaCertKeyReplaced | ClusterCaCertKeyReplaced | 用于为集群的 CA 证书签名的密钥已被替换,pod 作为 CA 续订服务器过程的一部分重启。 |
ConfigChangeRequiresRestart | ConfigChangeRequiresRestart | 有些 Kafka 配置属性会动态更改,但其他 Kafka 配置属性需要重启代理。 |
CustomListenerCaCertChanged | CustomListenerCaCertChanged | 用于保护 Kafka 网络监听程序的 CA 证书已更改,pod 重启以使用它。 |
FileSystemResizeNeeded | FileSystemResizeNeeded | 文件系统大小已增加,需要重启来应用它。 |
KafkaCertificatesChanged | KafkaCertificatesChanged | Kafka 代理使用的一个或多个 TLS 证书已更新,需要使用重启。 |
ManualRollingUpdate | ManualRollingUpdate |
注解了 pod 或 |
PodForceRestartOnError | PodForceRestartOnError | 发生错误,需要 pod 重启来重新处理。 |
PodHasOldRevision | JbodVolumesChanged |
在 Kafka 卷中添加或删除磁盘,需要重启来应用更改。使用 |
PodHasOldRevision | PodHasOldGeneration |
pod 的 |
PodStuck | PodStuck | pod 仍然处于待处理状态,且没有调度或无法调度,因此 Operator 已在最终尝试运行它时重启 pod。 |
PodUnresponsive | PodUnresponsive | AMQ Streams 无法连接到 pod,这可能表示代理没有正确启动,因此 Operator 会在尝试解决这个问题时重启它。 |