第 7 章 监控
通过监控数据,您可以监控 AMQ Streams 的性能和健康状况。您可以配置部署,以捕获用于分析和通知的指标数据。
在调查连接和数据交付问题时,指标数据非常有用。例如,指标数据可以识别复制不足的分区或消息的使用量速率。警报规则可以通过指定的通信频道提供此类指标的时间关键通知。监控视觉化呈现实时指标数据,以帮助确定更新部署配置的时间和方式。AMQ Streams 提供了示例指标配置文件。
分布式追踪为通过 AMQ Streams 提供端到端跟踪消息的工具补充指标数据的收集。
cruise Control 支持根据工作负载数据重新平衡 Kafka 集群。
指标和监控工具
AMQ Streams 可使用以下工具进行指标和监控:
- Prometheus 从 Kafka、ZooKeeper 和 Kafka Connect 集群中提取指标。Prometheus Alertmanager 插件处理警报并将其路由到通知服务。
- Kafka Exporter 添加额外的 Prometheus 指标
- Grafana 提供 Prometheus 指标的仪表板视觉化
- Jaeger 提供分布式追踪支持来跟踪应用程序之间的事务
- 在 Kafka 集群间实现控制 平衡数据
7.1. Prometheus
Prometheus 可以从 Kafka 组件和 AMQ Streams Operator 中提取指标数据。
要使用 Prometheus 获取指标数据并提供警报,必须部署 Prometheus 和 Prometheus Alertmanager 插件。还必须部署 Kafka 资源或重新部署指标配置,以公开指标数据。
Prometheus 提取公开的指标数据以进行监控。在条件指示潜在问题时,Alertmanager 会根据预定义的警报规则发出警报。
AMQ Streams 提供了示例指标和警报规则配置文件。AMQ Streams 提供的示例警报机制配置为发送通知到 Slack 频道。