10.6. OpenShift Container Platform 集群监控、日志记录和遥测技术
OpenShift Container Platform 在集群层面提供各种监控资源。
10.6.1. 关于 OpenShift Container Platform 集群监控
OpenShift Container Platform 包括一个预配置、预安装且自助更新的监控堆栈,它基于 Prometheus 开源项目及其更广的生态系统。它提供对集群组件的监控,并且包含一组警报(在发生任何问题时立即通知集群管理员)以及一组 Grafana 仪表板。集群监控堆栈只支持监控 OpenShift Container Platform 集群。
为确保与将来的 OpenShift Container Platform 更新兼容,只支持配置特定的监控堆栈选项。
10.6.2. 集群日志记录组件
集群日志记录组件基于 Elasticsearch、Fluentd 或 Rsyslog 以及 Kibana(EFK)。收集器 Fluentd 部署到 OpenShift Container Platform 集群中的每个节点。它收集所有节点和容器日志,并将它们写入 Elasticsearch (ES)。Kibana 是一个集中式 Web UI,用户和管理员可以在其中使用汇总的数据创建丰富的视觉化和仪表板。
目前有 5 种不同类型的集群日志记录组件:
- logStore(存储) - 存储日志的位置。当前的实现是 Elasticsearch。
- collection(收集) - 此组件从节点收集日志,将日志格式化并存储到 logStore 中。当前的实现是 Fluentd。
- visualization(可视化) - 此 UI 组件用于查看日志、图形和图表等。当前的实现是 Kibana。
- curation(策展) - 此组件按日志时间进行筛检。当前的实现是 Curator。
有关集群日志记录的更多信息,请参阅 OpenShift Container Platform 集群日志文档。
10.6.3. 关于 Telemetry
Telemetry 会向红帽发送一组精选的集群监控指标子集。这些指标会持续发送并描述:
- OpenShift Container Platform 集群的大小
- OpenShift Container Platform 组件的健康和状态
- 正在进行的任何升级的健康和状态
- 有关 OpenShift Container Platform 组件和功能的有限使用情况信息
- 有关集群监控组件所报告的警报的摘要信息
红帽将使用这一持续数据流实时监控集群的健康,必要时将对影响客户的问题做出反应。同时还有助于红帽向客户推出 OpenShift Container Platform 升级,以便最大程度降低服务影响,持续改进升级体验。
这类调试信息将提供给红帽支持和工程团队,其访问限制等同于访问通过问题单报告的数据。红帽利用所有连接集群信息来帮助改进 OpenShift Container Platform,提高其易用性。所有这些信息都不会与第三方共享。
10.6.3.1. Telemetry 收集的信息
Telemetry 收集的主要信息包括:
- 每个集群可用的更新数
- 用于更新的频道和镜像仓库
- 更新期间发生的错误数
- 正在运行的更新的进度信息
- 每个集群的机器数
- 机器的 CPU 内核数和 RAM 大小
- etcd 集群中的成员数,以及当前存储在 etcd 集群中的对象数
- 每种机器类型(infra 或 master)使用的 CPU 内核数和 RAM 大小
- 每个集群使用的 CPU 内核数和 RAM 大小
- 集群中运行的虚拟机实例数量
- 每个集群的 OpenShift Container Platform 框架组件的使用情况
- OpenShift Container Platform 集群的版本
- 集群上安装的任何 OpenShift Container Platform 框架组件(如 Cluster Version Operator、Cluster Monitoring、Image Registry、Elasticsearch for Logging)的健康、情况和状态。
- 安装期间生成的随机的唯一标识符
- OpenShift Container Platform 部署平台的名称,如 Amazon Web Services
Telemetry 不会收集任何身份识别的信息,如用户名、密码、用户资源的名称或地址。
10.6.4. CLI 故障排除和调试命令
如需 oc
客户端故障排除和调试命令列表,请参阅 OpenShift Container Platform CLI 工具文档。