1.8. 关于工作负载可用性 Operator 的指标


增加数据分析可提高工作负载可用性操作器的可观察性。数据提供有关操作器活动的指标,以及对集群的影响。这些指标提高决策功能,启用数据驱动的优化,并增强整体系统性能。

您可以使用指标来执行这些任务:

  • 访问运算符的综合跟踪数据,以监控整体系统效率。
  • 访问从跟踪数据派生的可操作见解,如识别频繁出现故障的节点,或者因为 Operator 的补救而造成停机。
  • 视觉化 Operator 的补救如何实际提高系统效率。

1.8.1. 为工作负载可用性 Operator 配置指标

您可以使用 Red Hat OpenShift Web 控制台安装 Node Health Check Operator。

先决条件

流程

  1. 从现有的 prometheus-user-workload-token secret 创建 prometheus-user-token secret,如下所示:

    existingPrometheusTokenSecret=$(kubectl get secret --namespace openshift-user-workload-monitoring | grep prometheus-user-workload-token | awk '{print $1}') 
    1
    
    
    kubectl get secret ${existingPrometheusTokenSecret} --namespace=openshift-user-workload-monitoring -o yaml | \
        sed '/namespace: .*==/d;/ca.crt:/d;/serviceCa.crt/d;/creationTimestamp:/d;/resourceVersion:/d;/uid:/d;/annotations/d;/kubernetes.io/d;' | \
        sed 's/namespace: .*/namespace: openshift-workload-availability/' | \ 
    2
    
        sed 's/name: .*/name: prometheus-user-workload-token/' | \ 
    3
    
        sed 's/type: .*/type: Opaque/' | \
        > prom-token.yaml
    
    kubectl apply -f prom-token.yaml
    1
    Metric ServiceMonitor 需要 prometheus-user-token,在下一步中创建。
    2
    确保新 Secret 的命名空间是安装 NHC Operator 的命名空间,如 openshift-workload-availability。
    3
    只有启用了 User Worload Prometheus scrape 时,prometheus-user-workload-token 才会存在。
  2. 按如下方式创建 ServiceMonitor:

    apiVersion: monitoring.coreos.com/v1
    kind: ServiceMonitor
    metadata:
      name: node-healthcheck-metrics-monitor
      namespace: openshift-workload-availability 
    1
    
      labels:
        app.kubernetes.io/component: controller-manager
    spec:
      endpoints:
      - interval: 30s
        port: https
        scheme: https
        authorization:
          type: Bearer
          credentials:
            name: prometheus-user-workload-token
            key: token
        tlsConfig:
          ca:
            configMap:
              name: nhc-serving-certs-ca-bundle
              key: service-ca.crt
          serverName: node-healthcheck-controller-manager-metrics-service.openshift-workload-availability.svc 
    2
    
      selector:
        matchLabels:
          app.kubernetes.io/component: controller-manager
          app.kubernetes.io/name: node-healthcheck-operator
          app.kubernetes.io/instance: metrics
    1
    指定要配置指标的命名空间,如 openshift-workload-availability
    2
    serverName 必须包含安装 Operator 的同一命名空间。在示例中,openshift-workload-availability 将放置在指标服务名称后面,并在 filetype 扩展之前放置。

验证

要确认配置成功,OCP Web UI 中的 Observe > Targets 选项卡会显示 Endpoint Up

1.8.2. 工作负载可用 Operator 的指标示例

以下是来自不同工作负载可用性操作器的指标示例。

指标包括以下指示器的信息:

  • Operator 可用性 :显示每个 Operator 是否启动并运行。
  • 节点补救计数:显示同一节点和所有节点中的补救数量。
  • 节点补救持续时间 :显示补救停机时间或恢复时间。
  • 节点补救量表 :显示持续补救的数量。
Red Hat logoGithubredditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。 了解我们当前的更新.

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

Theme

© 2026 Red Hat
返回顶部