第 4 章 通过连接集群进行远程健康监控
4.1. 关于远程健康监控
OpenShift Container Platform 会收集有关集群的遥测和配置数据,并使用 Telemeter Client 和 Insights Operator 向红帽报告。提供给红帽的数据可实现本文档概述的好处。
通过 Telemetry 和 Insights Operator 向红帽报告数据的集群被称为连接的集群 (connected cluster)。
Telemetry 是红帽用来描述 OpenShift Container Platform Telemeter 客户端向红帽发送的信息的术语。轻量级属性从连接的集群发送到红帽,以便启用订阅管理自动化、监控集群的健康状态、提供支持以及改进客户体验。
Insights Operator 收集 OpenShift Container Platform 配置数据并将其发送到红帽。这些数据用于生成有关集群可能潜在存在的问题的分析报告。这些 insights 通过 OpenShift Cluster Manager 与集群管理员进行交流。
本文档中提供了有关这两个工具的更多信息。
Telemetry 和 Insights Operator 的优点
Telemetry 和 Insights Operator 为最终用户提供以下优点:
- 增强了识别和解决问题的能力。对于一些事件,最终用户可能会认为是正常的,但从更广泛深入的角度来说,红帽会对这些事件的影响有不同的评估。因此,一些问题可以被更快地识别并解决,而不需要用户创建一个支持问题单或 Jira issue。
-
高级的版本管理。OpenShift Container Platform 提供了
candidate
、fast
和stable
发行频道,供您选择一个最佳的更新策略。版本从fast
到stable
的过程取决于更新的速度以及升级过程中的事件。通过连接的集群提供的信息,红帽可以将发行版本质量提高到stable
频道,并对在fast
频道中发现的问题做出更快反应。 - 有针对性地对新功能的开发进行优先级排序。通过收集的数据,可以了解哪些 OpenShift Container Platform 的功能被用户广泛使用。通过这些信息,红帽可以专注于开发对客户有严重影响的新功能。
- 更好的支持体验。在红帽客户门户网站上创建支持问题单时,可以为连接的集群提供集群 ID。这可让红帽通过使用连接的信息,简化用户的支持体验。本文档提供有关改进的支持体验的更多信息。
- 预测分析。通过从连接的集群收集的信息,在 OpenShift Cluster Manager 上显示集群的 insights 会被启用。红帽正在积极应用深入学习、机器学习及智能自动化,以帮助识别 OpenShift Container Platform 集群潜在的问题。
4.1.1. 关于 Telemetry
Telemetry 会向红帽发送一组精选的集群监控指标子集。Telemeter 客户端每四分三十秒获取一次指标值,并将数据上传到红帽。本文档中描述了这些指标。
红帽使用这一数据流来实时监控集群,必要时将对影响客户的问题做出反应。它同时还有助于红帽向客户推出 OpenShift Container Platform 升级,以便最大程度降低服务影响,持续改进升级体验。
这类调试信息将提供给红帽支持和工程团队,其访问限制等同于访问通过问题单报告的数据。红帽利用所有连接集群信息来帮助改进 OpenShift Container Platform,提高其易用性。
其他资源
- 有关更新或升级集群的更多信息,请参阅 OpenShift Container Platform 更新文档。
4.1.1.1. Telemetry 收集的信息
Telemetry 收集以下信息:
4.1.1.1.1. 系统信息
- 版本信息,包括 OpenShift Container Platform 集群版本并安装了用于决定更新版本可用性的更新详情
- 更新信息,包括每个集群可用的更新数、用于更新的频道和镜像存储库、更新进度信息以及更新中发生的错误数
- 安装期间生成的唯一随机标识符
- 帮助红帽支持为客户提供有用支持的配置详情,包括云基础架构级别的节点配置、主机名、IP 地址、Kubernetes pod 名称、命名空间和服务
- 在集群中安装的 OpenShift Container Platform 框架组件及其状况和状态
- 为降级 Operator 列出为 "related objects" 的所有命名空间的事件
- 有关降级软件的信息
- 有关证书的有效性的信息
- 部署 OpenShift Container Platform 的供应商平台的名称及数据中心位置
4.1.1.1.2. 大小信息
- 有关集群、机器类型和机器的大小信息,包括 CPU 内核数和每个机器所使用的 RAM 量
- etcd 成员数和存储在 etcd 集群中的对象数量
- 根据构建策略类型进行应用构建数量
4.1.1.1.3. 使用信息
- 有关组件、功能和扩展的使用情况信息
- 有关技术预览和不受支持配置的使用详情
Telemetry 不会收集任何身份识别的信息,如用户名或密码。红帽不会收集个人信息。如果红帽发现个人信息被意外地收到,红帽会删除这些信息。有关红帽隐私实践的更多信息,请参考红帽隐私声明。
其他资源
- 如需了解如何列出 Telemetry 中从 Prometheus 收集的属性的详细信息,请参阅显示 Telemetry 收集的数据。
- 如需 Telemetry 从 Prometheus 收集的属性列表,请参阅 上游 cluster-monitoring-operator 源代码。
- 在默认情况下,Telemetry 会被安装并启用。如果您需要选择不使用远程健康报告,请参阅不使用远程健康报告。
4.1.2. 关于 Insights Operator
Insights Operator 会定期收集配置和组件故障状态信息,默每两小时向红帽报告这些数据。这些信息可让红帽评估配置,它提供了比 Telemetry 报告更深入的数据。
OpenShift Container Platform 用户可以在 Red Hat Hybrid Cloud Console 上的 Insights Advisor 服务中显示每个集群的报告。如果发现了任何问题,Insights 会提供更详细的信息,并在可能的情况下提供如何解决相关问题的步骤。
Insights Operator 不会收集任何身份识别信息,如用户名、密码或证书。如需有关 Red Hat Insights 数据收集和控制的信息,请参阅 Red Hat Insights 数据和应用程序安全性。
红帽使用所有连接的集群信息以实现:
- 识别潜在的集群问题,并在 Red Hat Hybrid Cloud Console 上的 Insights Advisor 服务中提供解决方案和防止动作
- 通过为产品和支持团队提供聚合和重要信息来改进 OpenShift Container Platform
- 使 OpenShift Container Platform 更直观
其他资源
- Insights Operator 被默认安装并启用。如果您需要选择不使用远程健康报告,请参阅不使用远程健康报告。
4.1.2.1. Insights Operator 收集的信息
Insights Operator 收集以下信息:
- 有关集群及其组件的常规信息,以识别与您所使用的具体 OpenShift Container Platform 版本和环境的相关问题
- 集群的配置文件(如容器镜像仓库的配置)用于识别设置参数中的问题
- 集群组件中发生的错误
- 正在运行的更新的进度信息,以及组件升级的状态
- 有关 OpenShift Container Platform 部署平台(如 Amazon Web Services)以及集群所在区域的详情
- 集群工作负载信息转换为 diset Secure Hash Algorithm(SHA)值,它允许红帽评估工作负载中的安全性和版本漏洞,而不会泄漏敏感详情
-
如果 Operator 报告了一个问题,则会收集
openshift-*
和kube-*
项目中 OpenShift Container Platform 核心 pod 的信息。这包括状态、资源、安全上下文、卷信息等。
其他资源
- 如需了解如何查看 Insights Operator 收集的数据,请参阅 Insights Operator 收集的数据。
- 用户可以查看 Insights Operator 的源代码,并对代码进行贡献。如需 Insights Operator 收集的项目列表,请参阅 Insights Operator 上游项目。
4.1.3. 了解 Telemetry 和 Insights Operator 数据流
Telemeter Client 从 Prometheus API 收集所选的时间序列数据。时间序列数据每 4 分 30 秒上传到 api.openshift.com 进行处理。
Insights Operator 从 Kubernetes API 和 Prometheus API 中收集所选的数据并进行存档。该归档每两小时上传到 OpenShift Cluster Manager 进行处理。Insights Operator 还从 OpenShift Cluster Manager 下载最新的 Insights 分析。这用于填充 OpenShift Container Platform Web 控制台的 Overview 页面中包含的 Insights status。
所有与红帽的通信都使用传输层安全(TLS)和 mutual 证书验证通过加密频道进行。所有数据在传输及非活跃的情况下都会被加密。
对处理客户数据的系统是通过多因素验证和严格的授权控制来控制的。访问权限的设置是基于需要的,仅限于针对需要的操作。
telemetry 和 Insights Operator 数据流
4.1.4. 有关如何使用远程健康监控数据的更多详情
Telemetry 收集的信息和Insights Operator 收集的信息中提供了与启用健康检查健康相关的数据收集的信息。
如本文档前面部分所述,红帽会收集您使用红帽产品的数据,如提供支持和升级、优化性能或配置、减小服务影响、识别和补救威胁、故障排除、改进提供和用户体验、响应问题、根据情况提供账单目的。
集合保护
红帽采用一些技术和机构措施来保护遥测数据和配置数据。
共享
红帽可以在红帽内部通过 Telemetry 和 Insights Operator 共享收集的数据,以提升您的用户体验。红帽可能会以汇总的方式与业务合作伙伴共享遥测和配置数据,该表格可帮助合作伙伴更好地了解其业务及其客户对红帽产品的使用,或者确保成功整合这些合作伙伴支持的产品。
第三方
红帽可能会与某些第三方合作,协助收集、分析和存储遥测和配置数据。
用户控制/启用和禁用遥测和配置数据收集
您可以按照不使用远程健康报告中的说明禁用 OpenShift Container Platform Telemetry 和 Insights Operator。