第 12 章 查找 Kafka 重启的信息
在 Cluster Operator 在 OpenShift 集群中重启 Kafka pod 后,它会将 OpenShift 事件发送到 pod 的命名空间中,解释为什么 pod 重启的原因。有关了解集群行为的帮助,您可以从命令行检查重启事件。
您可以使用 Prometheus 等指标收集工具导出和监控重启事件。将指标工具与事件导出导出为合适的格式 的事件 导出。
12.1. 重启事件的原因 复制链接链接已复制到粘贴板!
Cluster Operator 根据具体原因启动重启事件。您可以通过获取重启事件的信息来检查原因。
给出的原因取决于您使用 StrimziPodSet 或 StatefulSet 资源来创建和管理 pod。
| StrimziPodSet | StatefulSet | Description |
|---|---|---|
| CaCertHasOldGeneration | CaCertHasOldGeneration | pod 仍然使用与旧 CA 签名的服务器证书,因此需要在证书更新过程中重启。 |
| CaCertRemoved | CaCertRemoved | 已删除过期的 CA 证书,pod 被重启以使用当前证书运行。 |
| CaCertRenewed | CaCertRenewed | CA 证书已被更新,pod 被重启以使用更新的证书运行。 |
| ClientCaCertKeyReplaced | ClientCaCertKeyReplaced | 用于为客户端 CA 证书签名的密钥已被替换,pod 被作为 CA 续订过程的一部分重启。 |
| ClusterCaCertKeyReplaced | ClusterCaCertKeyReplaced | 现在,用来为集群 CA 证书签名的密钥已被替换,pod 正在作为 CA 续订过程的一部分重启。 |
| ConfigChangeRequiresRestart | ConfigChangeRequiresRestart | 有些 Kafka 配置属性会被动态更改,但其他配置属性需要重启代理。 |
| CustomListenerCaCertChanged | CustomListenerCaCertChanged | 用于保护 Kafka 网络监听器的 CA 证书已更改,pod 被重启来使用它。 |
| FileSystemResizeNeeded | FileSystemResizeNeeded | 文件系统大小已增加,需要重启才能应用它。 |
| KafkaCertificatesChanged | KafkaCertificatesChanged | Kafka 代理使用的一个或多个 TLS 证书已更新,需要使用它们重启。 |
| ManualRollingUpdate | ManualRollingUpdate |
注解了 pod 的用户,或 |
| PodForceRestartOnError | PodForceRestartOnError | 发生一个错误,需要 pod 重启来改正。 |
| PodHasOldRevision | JbodVolumesChanged |
在 Kafka 卷中添加或删除磁盘,需要重启来应用更改。使用 |
| PodHasOldRevision | PodHasOldGeneration |
|
| PodStuck | PodStuck | pod 仍然处于待处理状态,且没有调度或无法调度,因此 Operator 会以最终尝试运行 Pod 来重启 pod。 |
| PodUnresponsive | PodUnresponsive | AMQ Streams 无法连接到 pod,它可指示代理无法正确启动,因此 Operator 会在尝试解决这个问题时重启它。 |