4.5. 监控集群

4.5.1. 监控集群状态

使用 Red Hat OpenShift Cluster Manager，您可以管理集群并监控它们以了解潜在的问题。Clusters 列表中的 Status 列报告每个集群的状态，以便您可以一览监控集群。

集群状态显示在 OpenShift Cluster Manager 中的 Clusters 列表中。通常，集群会显示 Ready 的状态，但还有其他可能的集群状态。

表 4.1. 集群状态
集群状态	描述
等待	仅限 STS 集群。等待用户完成必要的任务，然后才能安装集群。
验证	仅限 CCS 集群。等待用户完成必要的任务，然后才能安装集群。
待处理	用户完成所需任务后，但集群安装启动前，模拟状态。
安装	集群当前正在安装。
Ready	集群已安装并可供使用。集群连接到 Red Hat OpenShift Cluster Manager，并报告 Telemetry 数据。不需要手动注册。
Error	创建或销毁集群失败。
断开连接	集群不会将 Telemetry 数据发送到 OpenShift Cluster Manager。断开连接可能是因为集群安装在专用网络上，或者因为 Telemetry 已禁用。
Stale	集群已连接，但最近还没有将 Telemetry 数据发送到 OpenShift Cluster Manager。您无法在 OpenShift Cluster Manager Monitoring 选项卡中查看有关集群的内部信息，包括任何警报触发、集群操作器和资源使用情况。要了解临时解决方案步骤，请参阅对过时的集群进行故障排除。
有限支持	当集群过渡到有限支持状态时，这意味着 SLA 不再适用，并拒绝对 SLA 请求的信用。这并不意味着您不再有产品支持。如果违反了因素，集群可以返回完全支持的状态。如需更多信息，请参阅有限支持状态。
关闭	集群进入休眠模式。
Hibernating	集群不活跃。用户可以选择将集群移到休眠状态，以降低维护成本。
恢复	用户选择从休眠模式获取集群后的 interim 状态。集群正在开机，但还没有完全正常工作。
卸装	集群正在卸载。
归档	集群从集群列表视图移到 Archive 列表中。在归档列表中，只能看到两个标签页： Overview 和 Support。

4.5.2. 使用 Insights Advisor 建议管理集群健康状况

Red Hat Insights Advisor for OpenShift Container Platform 允许您从 Red Hat Hybrid Cloud Console 评估和监控 OpenShift Container Platform 集群的健康状态。

Insights Advisor 根据红帽建议突出显示 OpenShift Container Platform 集群的服务可用性、容错、性能和安全风险，以便您可以在不计划外停机的情况下快速避免潜在问题或解决问题。

建议包括有关检测到的问题的信息，包括风险级别、受影响的集群以及适用的解决方案的步骤。

要使用 Insights Advisor，您的集群必须注册到 OpenShift Cluster Manager。要注册断开连接的集群，请参阅将 OpenShift Container Platform 集群注册到 OpenShift Cluster Manager。

其他资源

如需有关在 OpenShift Container Platform 中使用 Insights Advisor 的信息，请参阅 Remote health monitoring with connected clusters and Monitoring your OpenShift cluster health with Insights Advisor。
如需有关 Red Hat Insights 数据收集和控制的信息，请参阅 Red Hat Insights 数据和应用程序安全性。

4.5.3. 对过时的集群进行故障排除

OpenShift Cluster Manager 允许您管理集群并监控它们以了解潜在的问题。Clusters 列表中的 Status 列报告每个集群的状态，以便您可以一览监控集群。

OpenShift Container Platform 集群可以在 OpenShift Cluster Manager 中显示为 Stale，即使它正常运行。但是，当集群状态变为 Stale 时，您无法在 OpenShift Cluster Manager Monitoring 选项卡中查看有关集群的内部信息，包括任何警报触发、集群操作器和资源使用情况。

在大多数情况下，集群会报告 Stale 状态，因为 telemeter-client 无法联系红帽 Telemetry 端点。Telemetry 可让集群与 OpenShift Cluster Manager 通信。如果集群报告 Stale 状态，您可以使用本节中的步骤将其恢复到 Ready 和恢复集群健康状况。

先决条件

一个 Red Hat 登录
OpenShift Container Platform 集群
您可以使用具有 cluster-admin 角色的用户访问集群。
已安装 OpenShift CLI(oc)。

流程

诊断过时的集群并将其恢复到 Ready 状态：

检查 OpenShift Container Platform 集群是否可以连接到 Telemetry 端点。如果适用，请确保集群代理配置允许访问 Telemetry 端点。所需的 Telemetry 端点，请参阅 OpenShift Container Platform 安装文档中的为 OpenShift Container Platform 配置防火墙。
查看在 openshift-monitoring 命名空间中运行的 telemeter-client pod 的日志，是否有任何错误：
```
$ oc get pods -n openshift-monitoring -l app.kubernetes.io/name=telemeter-client
```

重启 openshift-monitoring 命名空间中的 telemeter-client pod，在 openshift-insights 命名空间中重启 insights-operator pod：

$ oc delete pod -n openshift-monitoring -l app.kubernetes.io/name=telemeter-client
$ oc delete pod -n openshift-insights -l app=insights-operator

重启 pod 后等待几分钟，然后在 OpenShift Cluster Manager 的 Clusters 列表中找到集群，并检查 Status 列是否显示 Ready。

完成这些步骤后，如果您在 OpenShift Cluster Manager 中查看集群，但状态仍然为 Stale，偶尔这可能是因为集群由红帽机构中不活跃的用户所有。如果出现这种情况，您可以通过将集群所有权传送到机构中的活动用户来将集群恢复到 Ready。

要确定集群所有者，请使用以下命令检查集群 pull secret：
```
$ oc get secret pull-secret -n openshift-config -o jsonpath='{.data.\.dockerconfigjson}' | base64 -d | jq
```
注意
执行上述命令需要 jq JSON 处理器，并使输出更易读。您还可以通过从命令中删除 | jq 以在没有 jq 的情况下运行以上命令，当其输出将难以阅读。
检查 secret 中的用户帐户是否仍然在红帽客户门户网站中处于活动状态。
如果用户不再处于活动状态，请使用传输集群所有权中的步骤将集群传输到另一个所有者。所有权转让完成后，集群将 OpenShift Cluster Manager 显示为 Ready。

验证步骤

在 OpenShift Cluster Manager 中的 Clusters 列表中找到您的集群，并检查 Status 列是否显示 Ready。几分钟后，您还会在 OpenShift Cluster Manager Monitoring 选项卡中看到有关集群的信息。

其他资源

4.5.1. 监控集群状态

4.5.2. 使用 Insights Advisor 建议管理集群健康状况

4.5.3. 对过时的集群进行故障排除

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links