1.3. 启用 Observability 服务


当您在 hub 集群上启用 Observability 服务时,multicluster-observability-operator 会监视新的受管集群,并将指标和警报集合服务自动部署到受管集群。您可以使用指标并配置 Grafana 仪表板,使集群资源信息可见,帮助您保存成本并防止服务中断。

使用 Observability 组件监控受管集群的状态,也称为 multicluster-observability-operator pod。

需要的访问权限: 集群管理员、open-cluster-management:cluster-manager-admin 角色或 S3 管理员。

1.3.1. 先决条件

  • 您必须安装 Red Hat Advanced Cluster Management for Kubernetes。如需更多信息,请参阅在线安装
  • 如果没有指定默认存储类,则必须在 MultiClusterObservability 自定义资源中定义存储类。
  • 需要直接网络访问 hub 集群。不支持对负载均衡器和代理的网络访问。如需更多信息,请参阅网络
  • 您必须配置对象存储来创建存储解决方案。

    • 重要:当您配置对象存储时,请确保满足敏感数据持久时所需的加密要求。Observability 服务使用 Thanos 支持、稳定的对象存储。您可能无法通过多个 Red Hat Advanced Cluster Management Observability 安装共享对象存储存储桶。因此,为每个安装提供单独的对象存储存储桶。
    • Red Hat Advanced Cluster Management 支持带有稳定对象存储的以下云供应商:

      • Amazon Web Services S3 (AWS S3)
      • Red Hat Ceph (S3 compatible API)
      • Google Cloud Storage
      • Azure 存储
      • Red Hat OpenShift Data Foundation,以前称为 Red Hat OpenShift Container Storage
      • Red Hat OpenShift on IBM (ROKS)

1.3.2. 使用命令行界面启用 Observability

通过创建 MultiClusterObservability 自定义资源实例来启用 Observability 服务。在启用 Observability 前,请参阅 Observability pod 容量请求 以了解更多信息。

备注:

  • 当在由 Red Hat Advanced Cluster Management 管理的 OpenShift Container Platform 受管集群上启用或禁用 Observability 时,observability 端点 Operator 会添加额外的 alertmanager 配置来自动重启本地 Prometheus 来更新 cluster-monitoring-config 配置映射。
  • Observability 端点 Operator 通过添加自动重启本地 Prometheus 的额外 alertmanager 配置来更新 cluster-monitoring-config 配置映射。当您在 OpenShift Container Platform 受管集群中插入 alertmanager 配置时,配置会删除与 Prometheus 指标的 retention 字段相关的设置。

完成以下步骤以启用 Observability 服务:

  1. 登录到您的 Red Hat Advanced Cluster Management hub 集群。
  2. 使用以下命令为 Observability 服务创建一个命名空间:

    oc create namespace open-cluster-management-observability
  3. 生成 pull-secret。如果在 open-cluster-management 命名空间中安装了 Red Hat Advanced Cluster Management,请运行以下命令:

    DOCKER_CONFIG_JSON=`oc extract secret/multiclusterhub-operator-pull-secret -n open-cluster-management --to=-`
    1. 如果命名空间中没有定义 multiclusterhub-operator-pull-secret,请运行以下命令将 openshift-config 命名空间中的 pull-secret 复制到 open-cluster-management-observability 命名空间中:

      DOCKER_CONFIG_JSON=`oc extract secret/pull-secret -n openshift-config --to=-`
    2. 运行以下命令,在 open-cluster-management-observability 命名空间中创建 pull-secret:

      oc create secret generic multiclusterhub-operator-pull-secret \
          -n open-cluster-management-observability \
          --from-literal=.dockerconfigjson="$DOCKER_CONFIG_JSON" \
          --type=kubernetes.io/dockerconfigjson

    重要: 如果您使用 OpenShift Container Platform 文档修改集群的全局 pull secret,请务必更新 Observability 命名空间中的全局 pull secret。如需了解更多详细信息 ,请参阅更新全局 pull secret

  4. 为您的云供应商的对象存储创建 secret。您的 secret 必须包含存储解决方案的凭证。例如,运行以下命令:

    oc create -f thanos-object-storage.yaml -n open-cluster-management-observability

    查看以下受支持对象存储的 secret 示例:

    • 对于 Amazon S3 或 S3 兼容,您的 secret 可能类似以下文件:

      apiVersion: v1
      kind: Secret
      metadata:
        name: thanos-object-storage
        namespace: open-cluster-management-observability
      type: Opaque
      stringData:
        thanos.yaml: |
          type: s3
          config:
            bucket: YOUR_S3_BUCKET
            endpoint: YOUR_S3_ENDPOINT 1
            insecure: true
            access_key: YOUR_ACCESS_KEY
            secret_key: YOUR_SECRET_KEY
      1
      输入没有协议部分的 URL。输入您可能类似以下 URL 的 Amazon S3 端点 URL: s3.us-east-1.amazonaws.com

      如需了解更多详细信息,请参阅 Amazon Simple Storage Service 用户指南

    • 对于 Google Cloud Platform,您的 secret 可能类似以下文件:

      apiVersion: v1
      kind: Secret
      metadata:
        name: thanos-object-storage
        namespace: open-cluster-management-observability
      type: Opaque
      stringData:
        thanos.yaml: |
          type: GCS
          config:
            bucket: YOUR_GCS_BUCKET
            service_account: YOUR_SERVICE_ACCOUNT

      如需了解更多详细信息,请参阅 Google Cloud Storage

    • 对于 Azure,您的 secret 可能类似以下文件:

      apiVersion: v1
      kind: Secret
      metadata:
        name: thanos-object-storage
        namespace: open-cluster-management-observability
      type: Opaque
      stringData:
        thanos.yaml: |
          type: AZURE
          config:
            storage_account: YOUR_STORAGE_ACCT
            storage_account_key: YOUR_STORAGE_KEY
            container: YOUR_CONTAINER
            endpoint: blob.core.windows.net 1
            max_retries: 0
      1
      如果使用 msi_resource 路径,则端点身份验证通过使用 system-assigned 受管身份完成。您的值必须类似以下端点:https://<storage-account-name>.blob.core.windows.net

      如果您使用 user_assigned_id 路径,则端点身份验证通过使用用户分配的受管身份完成。当您使用 user_assigned_id 时,msi_resource 端点的默认值为 https:<storage_account>.<endpoint>。如需了解更多详细信息,请参阅 Azure Storage 文档

      :如果您将 Azure 用作 Red Hat OpenShift Container Platform 集群的对象存储,则不支持与集群关联的存储帐户。您必须创建新存储帐户。

    • 对于 Red Hat OpenShift Data Foundation,您的 secret 可能类似以下文件:

      apiVersion: v1
      kind: Secret
      metadata:
        name: thanos-object-storage
        namespace: open-cluster-management-observability
      type: Opaque
      stringData:
        thanos.yaml: |
          type: s3
          config:
            bucket: YOUR_RH_DATA_FOUNDATION_BUCKET
            endpoint: YOUR_RH_DATA_FOUNDATION_ENDPOINT 1
            insecure: false
            access_key: YOUR_RH_DATA_FOUNDATION_ACCESS_KEY
            secret_key: YOUR_RH_DATA_FOUNDATION_SECRET_KEY
      1
      输入没有协议部分的 URL。输入您的 Red Hat OpenShift Data Foundation 端点的 URL,它可能类似以下 URL:example.redhat.com:443

      如需了解更多详细信息,请参阅 Red Hat OpenShift Data Foundation

    • 对于 IBM 上的 Red Hat OpenShift (ROKS),您的 secret 可能类似以下文件:
    apiVersion: v1
    kind: Secret
    metadata:
      name: thanos-object-storage
      namespace: open-cluster-management-observability
    type: Opaque
    stringData:
      thanos.yaml: |
        type: s3
        config:
          bucket: YOUR_ROKS_S3_BUCKET
          endpoint: YOUR_ROKS_S3_ENDPOINT 1
          insecure: true
          access_key: YOUR_ROKS_ACCESS_KEY
          secret_key: YOUR_ROKS_SECRET_KEY
    1
    输入没有协议部分的 URL。输入您的 Red Hat OpenShift Data Foundation 端点的 URL,它可能类似以下 URL:example.redhat.com:443

    如需了解更多详细信息,请参阅 IBM 云文档 Cloud Object Storage。务必使用服务凭据来连接对象存储。如需了解更多详细信息,请参阅 IBM Cloud 文档,云对象存储服务凭证

1.3.2.1. 为 AWS 安全令牌服务配置存储

对于 Amazon S3 或 S3 兼容存储,您还可以使用由 AWS 安全令牌服务(AWS STS)生成的简短的、有有限权限的凭证。如需了解更多详细信息,请参阅 AWS 安全令牌服务 文档

使用 AWS 安全服务生成访问密钥需要以下额外步骤:

  1. 创建一个 IAM 策略,限制对 S3 存储桶的访问。
  2. 使用信任策略创建 IAM 角色,为 OpenShift Container Platform 服务帐户生成 JWT 令牌
  3. 为需要访问 S3 存储桶的 Observability 服务帐户指定注解。您可以在 Set 环境 步骤中找到如何使用 Red Hat OpenShift Service on AWS (ROSA)集群中的 Observability 的示例。如需了解更多详细信息,请参阅 Red Hat OpenShift Service on AWS (ROSA),以及 ROSA with STS explained 了解有关使用 STS 令牌的要求和设置的信息。

1.3.2.2. 使用 AWS 安全服务生成访问密钥

完成以下步骤,使用 AWS 安全服务生成访问密钥:

  1. 设置 AWS 环境。运行以下命令:

    export POLICY_VERSION=$(date +"%m-%d-%y")
    export TRUST_POLICY_VERSION=$(date +"%m-%d-%y")
    export CLUSTER_NAME=<my-cluster>
    export S3_BUCKET=$CLUSTER_NAME-acm-observability
    export REGION=us-east-2
    export NAMESPACE=open-cluster-management-observability
    export SA=tbd
    export SCRATCH_DIR=/tmp/scratch
    export OIDC_PROVIDER=$(oc get authentication.config.openshift.io cluster -o json | jq -r .spec.serviceAccountIssuer| sed -e "s/^https:\/\///")
    export AWS_ACCOUNT_ID=$(aws sts get-caller-identity --query Account --output text)
    export AWS_PAGER=""
    rm -rf $SCRATCH_DIR
    mkdir -p $SCRATCH_DIR
  2. 使用以下命令创建 S3 存储桶:

    aws s3 mb s3://$S3_BUCKET
  3. 创建一个 s3-policy JSON 文件来访问 S3 存储桶。运行以下命令:

    {
        "Version": "$POLICY_VERSION",
        "Statement": [
            {
                "Sid": "Statement",
                "Effect": "Allow",
                "Action": [
                    "s3:ListBucket",
                    "s3:GetObject",
                    "s3:DeleteObject",
                    "s3:PutObject",
                    "s3:PutObjectAcl",
                    "s3:CreateBucket",
                    "s3:DeleteBucket"
                ],
                "Resource": [
                    "arn:aws:s3:::$S3_BUCKET/*",
                    "arn:aws:s3:::$S3_BUCKET"
                ]
            }
        ]
     }
  4. 使用以下命令应用策略:

    S3_POLICY=$(aws iam create-policy --policy-name $CLUSTER_NAME-acm-obs \
    --policy-document file://$SCRATCH_DIR/s3-policy.json \
    --query 'Policy.Arn' --output text)
    echo $S3_POLICY
  5. 创建 TrustPolicy JSON 文件。运行以下命令:

    {
     "Version": "$TRUST_POLICY_VERSION",
     "Statement": [
       {
         "Effect": "Allow",
         "Principal": {
           "Federated": "arn:aws:iam::${AWS_ACCOUNT_ID}:oidc-provider/${OIDC_PROVIDER}"
         },
         "Action": "sts:AssumeRoleWithWebIdentity",
         "Condition": {
           "StringEquals": {
             "${OIDC_PROVIDER}:sub": [
               "system:serviceaccount:${NAMESPACE}:observability-thanos-query",
               "system:serviceaccount:${NAMESPACE}:observability-thanos-store-shard",
               "system:serviceaccount:${NAMESPACE}:observability-thanos-compact"
               "system:serviceaccount:${NAMESPACE}:observability-thanos-rule",
               "system:serviceaccount:${NAMESPACE}:observability-thanos-receive",
             ]
           }
         }
       }
     ]
    }
  6. 使用以下命令,为 AWS Prometheus 和 CloudWatch 创建角色:

    S3_ROLE=$(aws iam create-role \
      --role-name "$CLUSTER_NAME-acm-obs-s3" \
      --assume-role-policy-document file://$SCRATCH_DIR/TrustPolicy.json \
      --query "Role.Arn" --output text)
    echo $S3_ROLE
  7. 将策略附加到角色。运行以下命令:

    aws iam attach-role-policy \
      --role-name "$CLUSTER_NAME-acm-obs-s3" \
      --policy-arn $S3_POLICY

    您的 secret 可能类似以下文件:config 部分指定 signature_version2: false,且不指定 access_keysecret_key

    apiVersion: v1
    kind: Secret
    metadata:
      name: thanos-object-storage
      namespace: open-cluster-management-observability
    type: Opaque
    stringData:
      thanos.yaml: |
     type: s3
     config:
       bucket: $S3_BUCKET
       endpoint: s3.$REGION.amazonaws.com
       signature_version2: false
  8. 指定 MultiClusterObservability 自定义资源中的服务帐户注解,如 创建 MultiClusterObservability 自定义资源 部分所述。
  9. 使用以下命令,检索云供应商的 S3 access key 和 secret key。您必须在 secret 中对 base64 字符串进行解码、编辑和编码:

    1. 要为云供应商编辑和解码 S3 访问密钥,请运行以下命令:

      YOUR_CLOUD_PROVIDER_ACCESS_KEY=$(oc -n open-cluster-management-observability get secret <object-storage-secret> -o jsonpath="{.data.thanos\.yaml}" | base64 --decode | grep access_key | awk '{print $2}')
    2. 要查看云供应商的访问密钥,请运行以下命令:

      echo $YOUR_CLOUD_PROVIDER_ACCESS_KEY
    3. 要为云供应商编辑和解码 secret 密钥,请运行以下命令:

      YOUR_CLOUD_PROVIDER_SECRET_KEY=$(oc -n open-cluster-management-observability get secret <object-storage-secret> -o jsonpath="{.data.thanos\.yaml}" | base64 --decode | grep secret_key | awk '{print $2}')
    4. 运行以下命令,以查看云供应商的 secret 密钥:
    echo $YOUR_CLOUD_PROVIDER_SECRET_KEY
  10. 通过检查以下部署和有状态集的 pod 来验证是否启用了 Observability。您可能会收到以下信息:

    observability-thanos-query (deployment)
    observability-thanos-compact (statefulset)
    observability-thanos-receive-default  (statefulset)
    observability-thanos-rule   (statefulset)
    observability-thanos-store-shard-x  (statefulsets)

1.3.2.3. 创建 MultiClusterObservability 自定义资源

使用 MultiClusterObservability 自定义资源为各种组件指定持久性卷存储大小。您必须在初始创建 MultiClusterObservability 自定义资源时设置存储大小。当您部署后更新存储大小值时,只有在存储类支持动态卷扩展时,更改才会生效。如需更多信息,请参阅 Red Hat OpenShift Container Platform 文档中的扩展持久性卷

完成以下步骤,在 hub 集群中创建 MultiClusterObservability 自定义资源:

  1. 创建名为 multiclusterobservability_cr.yamlMultiClusterObservability 自定义资源 YAML 文件。

    查看以下默认 YAML 文件以查看可观察性:

    apiVersion: observability.open-cluster-management.io/v1beta2
    kind: MultiClusterObservability
    metadata:
      name: observability
    spec:
      observabilityAddonSpec: {}
      storageConfig:
        metricObjectStorage:
          name: thanos-object-storage
          key: thanos.yaml

    您可能需要修改 advanced 部分中的 retentionConfig 参数的值。如需更多信息,请参阅 Thanos Downsampling 分辨率和保留时间。根据受管集群的数量,您可能需要为有状态的集合更新存储量。如果您的 S3 存储桶被配置为使用 STS 令牌,请给服务帐户通过 S3 角色使用 STS。查看以下配置:

    spec:
      advanced:
        compact:
           serviceAccountAnnotations:
               eks.amazonaws.com/role-arn: $S3_ROLE
        store:
           serviceAccountAnnotations:
              eks.amazonaws.com/role-arn: $S3_ROLE
        rule:
           serviceAccountAnnotations:
              eks.amazonaws.com/role-arn: $S3_ROLE
        receive:
           serviceAccountAnnotations:
              eks.amazonaws.com/role-arn: $S3_ROLE
        query:
           serviceAccountAnnotations:
              eks.amazonaws.com/role-arn: $S3_ROLE

    如需更多信息,请参阅 Observability API

  2. 要在基础架构机器集上部署,您必须通过更新 MultiClusterObservability YAML 中的 nodeSelector 来为设置设置一个标签。您的 YAML 可能类似以下内容:

      nodeSelector:
        node-role.kubernetes.io/infra: ""

    如需更多信息,请参阅 创建基础架构机器集

  3. 运行以下命令,将 Observability YAML 应用到集群:

    oc apply -f multiclusterobservability_cr.yaml

    用于 Thanos、Grafana 和 Alertmanager 的所有 pod 在 open-cluster-management-observability 命名空间中创建。所有连接到 Red Hat Advanced Cluster Management hub 集群的受管集群都会被启用,以将指标数据发送回 Red Hat Advanced Cluster Management Observability 服务。

  4. 通过启动 Grafana 仪表板来验证 Observability 服务是否已启用,并且数据是否填充。
  5. 在控制台 Overview 页面或 Clusters 页面点击位于控制台标头旁的 Grafana 链接
  6. 访问 multicluster-observability-operator 部署,验证 multicluster-observability-operator pod 正在被 multiclusterhub-operator 部署进行部署。运行以下命令:

    oc get deploy multicluster-observability-operator -n open-cluster-management --show-labels

    您可能会收到以下结果:

    NAME                                  READY   UP-TO-DATE   AVAILABLE   AGE   LABELS
    multicluster-observability-operator   1/1     1            1           35m   installer.name=multiclusterhub,installer.namespace=open-cluster-management
  7. 查看 multicluster-observability-operator 部署的 labels 部分,以了解与资源关联的标签。labels 部分可能包含以下详情:

     labels:
        installer.name: multiclusterhub
        installer.namespace: open-cluster-management
  8. 可选: 如果要排除特定的受管集群收集 Observability 数据,请在集群中添加以下集群标签: observability: disabled

Observability 服务被启用。启用 Observability 服务后,会启动以下功能:

  • 所有来自受管集群的警报管理器都转发到 Red Hat Advanced Cluster Management hub 集群。
  • 所有连接到 Red Hat Advanced Cluster Management hub 集群的受管集群都会被启用,以将警报发回到 Red Hat Advanced Cluster Management Observability 服务。您可以配置 Red Hat Advanced Cluster Management Alertmanager 来处理重复数据删除、分组和将警报路由到正确的接收器集成,如电子邮件、PagerDuty 或 OpsGenie。您还可以处理静默和禁止警报。

    注: 只有受支持的 OpenShift Container Platform 版本上的受管集群支持将警报转发到 Red Hat Advanced Cluster Management hub 集群功能。安装启用了 Observability 的 Red Hat Advanced Cluster Management 后,警报会自动转发到 hub 集群。请参阅转发警报以了解更多信息。

1.3.3. 从 Red Hat OpenShift Container Platform 控制台启用可观察性

另外,您还可以从 Red Hat OpenShift Container Platform 控制台启用 Observability,创建一个名为 open-cluster-management-observability 的项目。完成以下步骤:

  1. open-cluster-management-observability 项目中创建名为 multiclusterhub-operator-pull-secret 的镜像 pull-secret。
  2. open-cluster-management-observability 项目中创建名为 thanos-object-storage 的对象存储 secret, 。
  3. 输入对象存储 secret 详细信息,然后单击 Create。请参阅 Enabling Observability 部分的第 4 步来查看 secret 的示例。
  4. 创建 MultiClusterObservability 自定义资源实例。当您收到以下信息时,Observability 服务会从 OpenShift Container Platform 中成功启用: Observability components are deployed and running

1.3.3.1. 验证 Thanos 版本

在集群中部署 Thanos 后,从命令行界面(CLI)验证 Thanos 版本。

登录到 hub 集群后,在 Observability pod 中运行以下命令以接收 Thanos 版本:

thanos --version

此时会显示 Thanos 版本。

1.3.4. 禁用 Observability

您可以禁用 Observability,这会在 Red Hat Advanced Cluster Management hub 集群中停止数据收集。

1.3.4.1. 在所有集群中禁用 Observability

通过删除所有受管集群中的 Observability 组件来禁用 Observability。

通过将 enableMetrics 设置为 false 来更新 multicluster-observability-operator 资源。更新的资源可能类似如下:

spec:
  imagePullPolicy: Always
  imagePullSecret: multiclusterhub-operator-pull-secret
  observabilityAddonSpec: 1
    enableMetrics: false 2
  workers: 3
1
使用 observabilityAddonSpec 参数为所有启用了 Observability 附加组件的受管集群定义全局设置。
2
使用 enableMetrics 参数来指示启用了 Observability 附加组件将指标推送到 hub 集群服务器。
3
技术预览 :使用 worker 参数来增加指标收集器进程中的内部 worker 数量。内部 worker 分片 /federate 端点请求对受管集群上的 Prometheus 发出,并将单独的远程写入请求发送到 hub 集群上的 Thanos。

1.3.4.2. 在单个集群中禁用 Observability

通过删除特定受管集群中的 Observability 组件来禁用 Observability。完成以下步骤:

  1. observability: disabled 标签添加到 managedclusters.cluster.open-cluster-management.io 自定义资源中。
  2. 在 Red Hat Advanced Cluster Management 控制台 Clusters 页面中,将 observability=disabled 标签添加到指定的集群中。

    注: 当一个带有 Observability 组件的受管集群被分离时,metric -collector 部署会被删除。

1.3.5. 删除 Observability

当删除 MultiClusterObservability 自定义资源时,您要禁用并卸载 Observability 服务。在 OpenShift Container Platform 控制台导航中,选择 Operators > Installed Operators > Advanced Cluster Manager for Kubernetes。删除 MultiClusterObservability 自定义资源。

1.3.6. 其他资源

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.