1.3. 启用可观察性服务
当您在 hub 集群上启用 observability 服务时,multicluster-observability-operator
会监视新的受管集群,并自动将指标和警报集合服务部署到受管集群。您可以使用指标并配置 Grafana 仪表板,使集群资源信息可见,可帮助您节约成本,并防止服务中断。
使用可观察组件监控受管集群的状态,也称为 multicluster-observability-operator
pod。
需要的访问权限: 集群管理员、open-cluster-management:cluster-manager-admin
角色或 S3 管理员。
1.3.1. 先决条件 复制链接链接已复制到粘贴板!
- 您必须安装 Red Hat Advanced Cluster Management for Kubernetes。如需更多信息,请参阅在线安装。
-
如果没有指定默认存储类,则必须在
MultiClusterObservability
自定义资源中定义存储类。 - 需要直接网络访问 hub 集群。不支持对负载均衡器和代理的网络访问。如需更多信息,请参阅网络。
您必须配置对象存储来创建存储解决方案。
- 重要:当您配置对象存储时,请确保满足敏感数据持久时所需的加密要求。Observability 服务使用 Thanos 支持的、稳定的对象存储。您可能无法通过多个 Red Hat Advanced Cluster Management observability 安装共享一个对象存储存储桶。因此,为每个安装提供单独的对象存储存储桶。
Red Hat Advanced Cluster Management 支持带有稳定对象存储的以下云供应商:
- Amazon Web Services S3 (AWS S3)
- Red Hat Ceph (S3 compatible API)
- Google Cloud Storage
- Azure 存储
- Red Hat OpenShift Data Foundation,以前称为 Red Hat OpenShift Container Storage
- Red Hat OpenShift on IBM (ROKS)
1.3.2. 使用命令行界面启用可观察性 复制链接链接已复制到粘贴板!
通过创建一个 MultiClusterObservability
自定义资源实例来启用可观察性服务。在启用可观察性前,请参阅 Observability pod 容量请求以了解更多信息。
备注:
-
当在由 Red Hat Advanced Cluster Management 管理的 OpenShift Container Platform 受管集群上启用或禁用了可观察性时,observability 端点 Operator 会添加额外的
alertmanager
配置来自动重启本地 Prometheus 来更新cluster-monitoring-config
配置映射。 -
Observability 端点 Operator 通过添加额外的
alertmanager
配置来更新cluster-monitoring-config
配置映射,以自动重启本地 Prometheus。当您在 OpenShift Container Platform 受管集群中插入alertmanager
配置时,配置会删除与 Prometheus 指标的 retention 字段相关的设置。
完成以下步骤以启用可观察服务:
- 登录到您的 Red Hat Advanced Cluster Management hub 集群。
使用以下命令,为可观察服务创建一个命名空间:
oc create namespace open-cluster-management-observability
oc create namespace open-cluster-management-observability
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 生成 pull-secret。如果在
open-cluster-management
命名空间中安装了 Red Hat Advanced Cluster Management,请运行以下命令:DOCKER_CONFIG_JSON=`oc extract secret/multiclusterhub-operator-pull-secret -n open-cluster-management --to=-`
DOCKER_CONFIG_JSON=`oc extract secret/multiclusterhub-operator-pull-secret -n open-cluster-management --to=-`
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如果命名空间中没有定义
multiclusterhub-operator-pull-secret
,将openshift-config
命名空间中的pull-secret
复制到open-cluster-management-observability
命名空间中。运行以下命令:DOCKER_CONFIG_JSON=`oc extract secret/pull-secret -n openshift-config --to=-`
DOCKER_CONFIG_JSON=`oc extract secret/pull-secret -n openshift-config --to=-`
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 然后,在
open-cluster-management-observability
命名空间中创建 pull-secret,运行以下命令:oc create secret generic multiclusterhub-operator-pull-secret \ -n open-cluster-management-observability \ --from-literal=.dockerconfigjson="$DOCKER_CONFIG_JSON" \ --type=kubernetes.io/dockerconfigjson
oc create secret generic multiclusterhub-operator-pull-secret \ -n open-cluster-management-observability \ --from-literal=.dockerconfigjson="$DOCKER_CONFIG_JSON" \ --type=kubernetes.io/dockerconfigjson
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 重要:如果使用 OpenShift Container Platform 文档修改集群的全局 pull secret,请务必更新可观察命名空间中的全局 pull secret。如需了解更多详细信息 ,请参阅更新全局 pull secret。
为您的云供应商的对象存储创建 secret。您的 secret 必须包含存储解决方案的凭证。例如,运行以下命令:
oc create -f thanos-object-storage.yaml -n open-cluster-management-observability
oc create -f thanos-object-storage.yaml -n open-cluster-management-observability
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 查看以下受支持对象存储的 secret 示例:
对于 Amazon S3 或 S3 兼容,您的 secret 可能类似以下文件:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 1
- 输入没有协议部分的 URL。输入类似以下 URL 的 Amazon S3 端点的 URL:
s3.us-east-1.amazonaws.com
。
如需了解更多详细信息,请参阅 Amazon Simple Storage Service 用户指南。
对于 Google Cloud Platform,您的 secret 可能类似以下文件:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如需了解更多详细信息,请参阅 Google Cloud Storage。
对于 Azure,您的 secret 可能类似以下文件:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 1
- 如果使用
msi_resource
路径,则端点身份验证通过使用 system-assigned 受管身份完成。您的值必须类似以下端点:https://<storage-account-name>.blob.core.windows.net
。
如果您使用
user_assigned_id
路径,则端点身份验证通过使用用户分配的受管身份完成。当您使用user_assigned_id
时,msi_resource
端点的默认值为https:<storage_account>.<endpoint>
。如需了解更多详细信息,请参阅 Azure Storage 文档。注 :如果您将 Azure 用作 Red Hat OpenShift Container Platform 集群的对象存储,则不支持与集群关联的存储帐户。您必须创建新存储帐户。
对于 Red Hat OpenShift Data Foundation,您的 secret 可能类似以下文件:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 1
- 输入没有协议部分的 URL。输入您的 Red Hat OpenShift Data Foundation 端点的 URL,它可能类似以下 URL:
example.redhat.com:443
。
如需了解更多详细信息,请参阅 Red Hat OpenShift Data Foundation。
对于 IBM 上的 Red Hat OpenShift (ROKS),您的 secret 可能类似以下文件:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 1
- 输入没有协议部分的 URL。输入您的 Red Hat OpenShift Data Foundation 端点的 URL,它可能类似以下 URL:
example.redhat.com:443
。
如需了解更多详细信息,请参阅 IBM 云文档 Cloud Object Storage。务必使用服务凭据来连接对象存储。如需了解更多详细信息,请参阅 IBM Cloud 文档,云对象存储和服务凭证。
1.3.2.1. 为 AWS 安全令牌服务配置存储 复制链接链接已复制到粘贴板!
对于 Amazon S3 或 S3 兼容存储,您还可以使用由 AWS 安全令牌服务(AWS STS)生成的简短的、有有限权限的凭证。如需了解更多详细信息,请参阅 AWS 安全令牌服务 文档。
使用 AWS 安全服务生成访问密钥需要以下额外步骤:
- 创建一个 IAM 策略,限制对 S3 存储桶的访问。
- 使用信任策略创建 IAM 角色,为 OpenShift Container Platform 服务帐户生成 JWT 令牌
- 为需要访问 S3 存储桶的可观察服务帐户指定注解。您可以参阅如何在 AWS (ROSA)集群上使用 Red Hat OpenShift Service on AWS (ROSA)集群的可观察性,以便在 Set 环境 步骤中使用 AWS STS 令牌。如需了解更多详细信息,请参阅 Red Hat OpenShift Service on AWS (ROSA),以及 ROSA with STS explained 了解有关使用 STS 令牌的要求和设置的信息。
1.3.2.2. 使用 AWS 安全服务生成访问密钥 复制链接链接已复制到粘贴板!
完成以下步骤,使用 AWS 安全服务生成访问密钥:
设置 AWS 环境。运行以下命令:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用以下命令创建 S3 存储桶:
aws s3 mb s3://$S3_BUCKET
aws s3 mb s3://$S3_BUCKET
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 创建一个
s3-policy
JSON 文件来访问 S3 存储桶。运行以下命令:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用以下命令应用策略:
S3_POLICY=$(aws iam create-policy --policy-name $CLUSTER_NAME-acm-obs \ --policy-document file://$SCRATCH_DIR/s3-policy.json \ --query 'Policy.Arn' --output text) echo $S3_POLICY
S3_POLICY=$(aws iam create-policy --policy-name $CLUSTER_NAME-acm-obs \ --policy-document file://$SCRATCH_DIR/s3-policy.json \ --query 'Policy.Arn' --output text) echo $S3_POLICY
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 创建
TrustPolicy
JSON 文件。运行以下命令:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 使用以下命令,为 AWS Prometheus 和 CloudWatch 创建角色:
S3_ROLE=$(aws iam create-role \ --role-name "$CLUSTER_NAME-acm-obs-s3" \ --assume-role-policy-document file://$SCRATCH_DIR/TrustPolicy.json \ --query "Role.Arn" --output text) echo $S3_ROLE
S3_ROLE=$(aws iam create-role \ --role-name "$CLUSTER_NAME-acm-obs-s3" \ --assume-role-policy-document file://$SCRATCH_DIR/TrustPolicy.json \ --query "Role.Arn" --output text) echo $S3_ROLE
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 将策略附加到角色。运行以下命令:
aws iam attach-role-policy \ --role-name "$CLUSTER_NAME-acm-obs-s3" \ --policy-arn $S3_POLICY
aws iam attach-role-policy \ --role-name "$CLUSTER_NAME-acm-obs-s3" \ --policy-arn $S3_POLICY
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 您的 secret 可能类似以下文件:
config
部分指定signature_version2: false
,且不指定access_key
和secret_key
:Copy to Clipboard Copied! Toggle word wrap Toggle overflow -
在
MultiClusterObservability
自定义资源时指定服务帐户注解,如创建 MultiClusterObservability CR 部分所述。 您可以使用以下命令为云供应商检索 S3 access key 和 secret 密钥:您必须在 secret 中对
base64
字符串进行解码、编辑和编码:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 通过检查以下部署和有状态集的 pod 来验证是否启用了可观察性。您可能会收到以下信息:
observability-thanos-query (deployment) observability-thanos-compact (statefulset) observability-thanos-receive-default (statefulset) observability-thanos-rule (statefulset) observability-thanos-store-shard-x (statefulsets)
observability-thanos-query (deployment) observability-thanos-compact (statefulset) observability-thanos-receive-default (statefulset) observability-thanos-rule (statefulset) observability-thanos-store-shard-x (statefulsets)
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
1.3.2.3. 创建 MultiClusterObservability 自定义资源 复制链接链接已复制到粘贴板!
使用 MultiClusterObservability
自定义资源为各种组件指定持久性卷存储大小。您必须在初始创建 MultiClusterObservability
自定义资源时设置存储大小。当您部署后更新存储大小值时,只有在存储类支持动态卷扩展时,更改才会生效。如需更多信息,请参阅 Red Hat OpenShift Container Platform 文档中的扩展持久性卷。
完成以下步骤,在 hub 集群中创建 MultiClusterObservability
自定义资源:
创建名为
multiclusterobservability_cr.yaml
的MultiClusterObservability
自定义资源 YAML 文件。查看以下默认 YAML 文件以查看可观察性:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 您可能需要修改
advanced
部分中的retentionConfig
参数的值。如需更多信息,请参阅 Thanos Downsampling 分辨率和保留时间。根据受管集群的数量,您可能需要为有状态的集合更新存储量。如果您的 S3 存储桶被配置为使用 STS 令牌,请给服务帐户通过 S3 角色使用 STS。查看以下配置:Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如需更多信息,请参阅 Observability API。
要在基础架构机器集上部署,您必须通过更新
MultiClusterObservability
YAML 中的nodeSelector
来为设置设置一个标签。您的 YAML 可能类似以下内容:nodeSelector: node-role.kubernetes.io/infra:
nodeSelector: node-role.kubernetes.io/infra:
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 如需更多信息,请参阅 创建基础架构机器集。
运行以下命令,将可观察 YAML 应用到集群:
oc apply -f multiclusterobservability_cr.yaml
oc apply -f multiclusterobservability_cr.yaml
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 用于 Thanos、Grafana 和 Alertmanager 的所有 pod 在
open-cluster-management-observability
命名空间中创建。所有连接到 Red Hat Advanced Cluster Management hub 集群的受管集群都会被启用,以将指标数据发送回 Red Hat Advanced Cluster Management Observability 服务。- 通过启动 Grafana 仪表板来验证 observability 服务是否已启用,并且数据是否填充。
在控制台 Overview 页面或 Clusters 页面点击位于控制台标头旁的 Grafana 链接。
-
另外,使用以下 URL 访问 OpenShift Container Platform 3.11 Grafana 仪表板:
https://$ACM_URL/grafana/dashboards
。 - 要查看 OpenShift Container Platform 3.11 仪表板,请选择名为 OCP 3.11 的文件夹。
-
另外,使用以下 URL 访问 OpenShift Container Platform 3.11 Grafana 仪表板:
访问
multicluster-observability-operator
部署,验证multicluster-observability-operator
pod 正在被multiclusterhub-operator
部署进行部署。运行以下命令:oc get deploy multicluster-observability-operator -n open-cluster-management --show-labels NAME READY UP-TO-DATE AVAILABLE AGE LABELS multicluster-observability-operator 1/1 1 1 35m installer.name=multiclusterhub,installer.namespace=open-cluster-management
oc get deploy multicluster-observability-operator -n open-cluster-management --show-labels NAME READY UP-TO-DATE AVAILABLE AGE LABELS multicluster-observability-operator 1/1 1 1 35m installer.name=multiclusterhub,installer.namespace=open-cluster-management
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 查看与资源关联的标签的
multicluster-observability-operator
部署的labels
部分。labels
部分可能包含以下详情:labels: installer.name: multiclusterhub installer.namespace: open-cluster-management
labels: installer.name: multiclusterhub installer.namespace: open-cluster-management
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
. .可选: 如果要排除特定的受管集群收集可观察性数据,请在集群中添加以下集群标签: observability: disabled
。
observability 服务被启用。启用 observability 服务后,会启动以下功能:
- 所有来自受管集群的警报管理器都转发到 Red Hat Advanced Cluster Management hub 集群。
所有连接到 Red Hat Advanced Cluster Management hub 集群的受管集群都会被启用,以将警报发送回 Red Hat Advanced Cluster Management observability 服务。您可以配置 Red Hat Advanced Cluster Management Alertmanager 来处理重复数据删除、分组和将警报路由到正确的接收器集成,如电子邮件、PagerDuty 或 OpsGenie。您还可以处理静默和禁止警报。
注: 只有 Red Hat OpenShift Container Platform 版本 4.13 或更高版本的受管集群支持将警报转发到 Red Hat Advanced Cluster Management hub 集群功能。安装启用了可观察性功能的 Red Hat Advanced Cluster Management 后,来自 OpenShift Container Platform 4.13 及之后的版本的警报会自动转发到 hub 集群。请参阅转发警报以了解更多信息。
1.3.3. 从 Red Hat OpenShift Container Platform 控制台启用可观察性 复制链接链接已复制到粘贴板!
另外,您还可以从 Red Hat OpenShift Container Platform 控制台启用可观察性,创建一个名为 open-cluster-management-observability
的项目。务必在 open-cluster-management-observability
项目中创建名为 multiclusterhub-operator-pull-secret
的镜像 pull-secret。
在 open-cluster-management-observability
项目中创建名为 thanos-object-storage
的对象存储 secret, 。输入对象存储 secret 详细信息,然后单击 Create。请参阅 Enabling observability 部分的第 4 步来查看 secret 的示例。
创建 MultiClusterObservability
自定义资源实例。当您收到以下信息时,代表 OpenShift Container Platform 中已成功启用 obseravbility 服务:Observability components are deployed and running
。
1.3.3.1. 验证 Thanos 版本 复制链接链接已复制到粘贴板!
在集群中部署 Thanos 后,从命令行界面(CLI)验证 Thanos 版本。
登录到 hub 集群后,在可观察性 pod 中运行以下命令以接收 Thanos 版本:
thanos --version
thanos --version
此时会显示 Thanos 版本。
1.3.4. 禁用可观察性 复制链接链接已复制到粘贴板!
您可以禁用可观察性,在 Red Hat Advanced Cluster Management hub 集群中停止数据收集。
1.3.4.1. 在所有集群中禁用可观察性 复制链接链接已复制到粘贴板!
通过删除所有受管集群中的可观察性组件来禁用可观察性。通过将 enableMetrics
设置为 false
来更新 multicluster-observability-operator
资源。更新的资源可能类似如下:
spec: imagePullPolicy: Always imagePullSecret: multiclusterhub-operator-pull-secret observabilityAddonSpec: # The ObservabilityAddonSpec defines the global settings for all managed clusters which have observability add-on enabled enableMetrics: false #indicates the observability addon push metrics to hub server
spec:
imagePullPolicy: Always
imagePullSecret: multiclusterhub-operator-pull-secret
observabilityAddonSpec: # The ObservabilityAddonSpec defines the global settings for all managed clusters which have observability add-on enabled
enableMetrics: false #indicates the observability addon push metrics to hub server
1.3.4.2. 在单个集群中禁用可观察性 复制链接链接已复制到粘贴板!
通过删除特定受管集群中的可观察性组件来禁用可观察性。将 observability: disabled
标签添加到 managedclusters.cluster.open-cluster-management.io
自定义资源中。在 Red Hat Advanced Cluster Management 控制台 Clusters 页面中,将 observability=disabled
标签添加到指定的集群中。
备注:当一个带有可观察性组件的受管集群被分离时,metric-collector
部署会被删除。
1.3.5. 删除可观察性 复制链接链接已复制到粘贴板!
删除 MultiClusterObservability
自定义资源时,您将禁用和卸载 observability 服务。在 OpenShift Container Platform 控制台导航中,选择 Operators > Installed Operators > Advanced Cluster Manager for Kubernetes。删除 MultiClusterObservability
自定义资源。
1.3.6. 其他资源 复制链接链接已复制到粘贴板!
对象存储信息链接到云供应商文档:
- 请参阅使用可观察性。
- 要了解更多有关如何定制可观察性的信息,请参阅定制可观察性。
- 如需更多相关主题,请返回到 Observability 服务简介。