第 9 章 监控
监控数据允许您监控 AMQ Streams 的性能和健康状况。您可以配置部署来捕获指标数据进行分析和通知。
在调查连接和数据发送问题时,指标数据很有用。例如,指标数据可以识别出复制的分区或信息被消耗的速率。警报规则可以通过指定的通信频道提供此类指标上的时间通知。监控视觉化呈现实时指标数据,以帮助确定如何更新部署配置。AMQ Streams 提供了指标配置文件示例。
分布式追踪通过 AMQ Streams 提供端到端跟踪信息,从而补充指标数据的收集。
Cruise Control 支持根据工作负载数据重新平衡 Kafka 集群。
指标和监控工具
AMQ Streams 可使用以下工具进行指标和监控:
- Prometheus
- Prometheus 从 Kafka、Kooker 和 Kafka Connect 集群中提取指标。Prometheus Alertmanager 插件处理警报并将其路由到通知服务。
- Kafka Exporter
- Kafka Exporter 添加额外的 Prometheus 指标。
- Grafana
- Grafana Labs 提供 Prometheus 指标的仪表板视觉化。
- Jaeger
- Jaeger 文档 提供了分布式追踪支持,用于跟踪应用程序间的事务。
- Sything Control
- Cruise Control 监控数据分布,并在 Kafka 集群间执行数据重新平衡。
9.1. Prometheus
Prometheus 可以从 Kafka 组件和 AMQ Streams Operator 中提取指标数据。
要使用 Prometheus 获取指标数据并提供警报,必须部署 Prometheus 和 Prometheus Alertmanager 插件。还必须使用指标配置部署或重新部署 Kafka 资源,以公开指标数据。
Prometheus 提取公开的指标数据用于监控。当条件根据预定义的警报规则来指示潜在的问题时,Alertmanager 会发出警报。
AMQ Streams 提供了指标和警报规则配置文件示例。AMQ Streams 提供的示例警报机制被配置为将通知发送到 Slack 频道。