1.8. 关于工作负载可用性 Operator 的指标
增加数据分析可提高工作负载可用性操作器的可观察性。数据提供有关操作器活动的指标,以及对集群的影响。这些指标提高决策功能,启用数据驱动的优化,并增强整体系统性能。
您可以使用指标来执行这些任务:
- 访问运算符的综合跟踪数据,以监控整体系统效率。
- 访问从跟踪数据派生的可操作见解,如识别频繁出现故障的节点,或者因为 Operator 的补救而造成停机。
- 视觉化 Operator 的补救如何实际提高系统效率。
1.8.1. 为工作负载可用性 Operator 配置指标 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
您可以使用 Red Hat OpenShift Web 控制台安装 Node Health Check Operator。
先决条件
- 您必须首先配置监控堆栈。如需更多信息,请参阅 配置监控堆栈。
- 您必须为已使用的定义项目启用监控。如需更多信息,请参阅 启用对已使用定义的项目的监控。
流程
从现有的
prometheus-user-workload-tokensecret 创建prometheus-user-tokensecret,如下所示:existingPrometheusTokenSecret=$(kubectl get secret --namespace openshift-user-workload-monitoring | grep prometheus-user-workload-token | awk '{print $1}')1 kubectl get secret ${existingPrometheusTokenSecret} --namespace=openshift-user-workload-monitoring -o yaml | \ sed '/namespace: .*==/d;/ca.crt:/d;/serviceCa.crt/d;/creationTimestamp:/d;/resourceVersion:/d;/uid:/d;/annotations/d;/kubernetes.io/d;' | \ sed 's/namespace: .*/namespace: openshift-workload-availability/' | \2 sed 's/name: .*/name: prometheus-user-workload-token/' | \3 sed 's/type: .*/type: Opaque/' | \ > prom-token.yaml kubectl apply -f prom-token.yaml按如下方式创建 ServiceMonitor:
apiVersion: monitoring.coreos.com/v1 kind: ServiceMonitor metadata: name: node-healthcheck-metrics-monitor namespace: openshift-workload-availability1 labels: app.kubernetes.io/component: controller-manager spec: endpoints: - interval: 30s port: https scheme: https authorization: type: Bearer credentials: name: prometheus-user-workload-token key: token tlsConfig: ca: configMap: name: nhc-serving-certs-ca-bundle key: service-ca.crt serverName: node-healthcheck-controller-manager-metrics-service.openshift-workload-availability.svc2 selector: matchLabels: app.kubernetes.io/component: controller-manager app.kubernetes.io/name: node-healthcheck-operator app.kubernetes.io/instance: metrics
验证
要确认配置成功,OCP Web UI 中的 Observe > Targets 选项卡会显示 Endpoint Up。
1.8.2. 工作负载可用 Operator 的指标示例 复制链接链接已复制到粘贴板!
复制链接链接已复制到粘贴板!
以下是来自不同工作负载可用性操作器的指标示例。
指标包括以下指示器的信息:
- Operator 可用性 :显示每个 Operator 是否启动并运行。
- 节点补救计数:显示同一节点和所有节点中的补救数量。
- 节点补救持续时间 :显示补救停机时间或恢复时间。
- 节点补救量表 :显示持续补救的数量。