3.3. 为核心平台监控存储和记录数据
存储和记录您的指标和警报数据,配置日志以指定记录哪些活动,控制 Prometheus 保留数据的时长,并为数据设置最大磁盘空间量。这些操作可帮助您保护数据并将其用于故障排除。
3.3.1. 配置持久性存储 复制链接链接已复制到粘贴板!
使用持久性存储运行集群监控以获取以下优点:
- 通过将指标和警报数据存储在持久性卷(PV)中来保护您的指标和警报数据。因此,它们可以在 pod 重启或重新创建后保留。
- 避免获取重复的通知,并在 Alertmanager pod 重启时丢失警报静默。
在多节点集群中,您必须为 Prometheus 和 Alertmanager 配置持久性存储,以确保高可用性。
在生产环境中,强烈建议配置持久性存储。
3.3.1.1. 持久性存储的先决条件 复制链接链接已复制到粘贴板!
- 分配充足的专用持久性存储,以确保磁盘不会被填满。
在配置持久性卷时,使用
Filesystem作为volumeMode参数的存储类型值。重要-
不要使用原始块卷,它由
PersistentVolume资源中的volumeMode: Block描述。Prometheus 无法使用原始块卷。 - Prometheus 不支持兼容 POSIX 的文件系统。例如,一些 NFS 文件系统实现不兼容 POSIX。如果要使用 NFS 文件系统进行存储,请验证与其 NFS 实现完全兼容 POSIX 的供应商。
-
不要使用原始块卷,它由
3.3.1.2. 配置持久性卷声明 复制链接链接已复制到粘贴板!
要将持久性卷 (PV) 用于监控组件,您必须配置持久性卷声明 (PVC)。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
openshift-monitoring项目中的cluster-monitoring-config配置映射:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config将组件的 PVC 配置添加到
data/config.yaml下:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | <component>:1 volumeClaimTemplate: spec: storageClassName: <storage_class>2 resources: requests: storage: <amount_of_storage>3 以下示例配置了一个 PVC 来声明 Prometheus 的持久性存储:
PVC 配置示例
apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | prometheusK8s: volumeClaimTemplate: spec: storageClassName: my-storage-class resources: requests: storage: 40Gi保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署并应用新的存储配置。
警告当您使用 PVC 配置更新配置映射时,受影响的
StatefulSet对象会被重新创建,从而导致临时服务中断。
3.3.1.3. 重新定义持久性卷大小 复制链接链接已复制到粘贴板!
您可以为监控组件(如 Prometheus 或 Alertmanager)重新定义持久性卷(PV)大小。您需要手动扩展持久性卷声明 (PVC),然后更新配置组件的配置映射。
您只能扩展 PVC 的大小。无法缩小存储大小。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。 - 至少有一个 PVC 用于 OpenShift Container Platform 核心监控组件。
-
已安装 OpenShift CLI(
oc)。
流程
- 使用更新的存储请求手动扩展 PVC。如需更多信息,请参阅 扩展持久性卷 中的"使用文件系统扩展持久性卷声明 (PVC) "。
编辑
openshift-monitoring项目中的cluster-monitoring-config配置映射:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config在
data/config.yaml下为组件添加新存储大小:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | <component>:1 volumeClaimTemplate: spec: resources: requests: storage: <amount_of_storage>2 以下示例将 Prometheus 实例的新 PVC 请求设置为 100GB:
prometheusK8s的存储配置示例apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | prometheusK8s: volumeClaimTemplate: spec: resources: requests: storage: 100Gi保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
警告当您使用新存储大小更新配置映射时,受影响的
StatefulSet对象会被重新创建,从而导致临时服务中断。
3.3.2. 修改 Prometheus 指标数据的保留时间和大小 复制链接链接已复制到粘贴板!
默认情况下,Prometheus 为核心平台监控保留 15 天指标数据。您可以修改 Prometheus 实例的保留时间,以便在删除数据时更改。您还可以设置保留指标数据使用的最大磁盘空间量。
数据压缩每两小时进行一次。因此,持久性卷 (PV) 可能会在压缩前已被填满,可能会超过 retentionSize 限制。在这种情况下,KubePersistentVolumeFillingUp 警报会触发,直到 PV 上的空间低于 retentionSize 限制。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
openshift-monitoring项目中的cluster-monitoring-config配置映射:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config在
data/config.yaml下添加保留时间和大小配置:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | prometheusK8s: retention: <time_specification>1 retentionSize: <size_specification>2 以下示例将 Prometheus 实例的保留时间设置为 24 小时,保留大小设为 10GB:
为 Prometheus 设置保留时间示例
apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | prometheusK8s: retention: 24h retentionSize: 10GB- 保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
3.3.3. 为 Metrics Server 配置审计日志 复制链接链接已复制到粘贴板!
您可以为 Metrics Server 配置审计日志,以帮助您对服务器问题进行故障排除。审计日志记录集群中的操作序列。它可以记录用户、应用程序或 control plane 的活动。
您可以配置审计日志规则,以记录特定事件和相关数据的子集。以下审计配置集定义配置规则:
-
Metadata(默认):此配置集记录事件元数据,包括用户、时间戳、资源和操作。它不会记录请求和响应正文。 -
Request: 此配置集记录事件元数据和请求正文,但不记录响应正文。此配置不适用于非资源请求。 -
RequestResponse:此配置集记录事件元数据,以及请求和响应正文。此配置不适用于非资源请求。 -
None:以前提到的事件都不会被记录。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
openshift-monitoring项目中的cluster-monitoring-config配置映射:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config将 Metrics 服务器的审计日志配置添加到
data/config.yaml下:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | metricsServer: audit: profile: <audit_log_profile>1 - 1
- 指定 Metrics 服务器的审计配置集。
- 保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
验证是否应用了 audit 配置集:
$ oc -n openshift-monitoring get deploy metrics-server -o yaml | grep -- '--audit-policy-file=*'输出示例
- --audit-policy-file=/etc/audit/request-profile.yaml
3.3.4. 为监控组件设置日志级别 复制链接链接已复制到粘贴板!
您可以为 Alertmanager、Prometheus Operator、Prometheus 和 Thanos Querier 配置日志级别。
以下日志级别可应用到 cluster-monitoring-config ConfigMap 对象中的相关组件:
-
debug。记录调试、信息、警告和错误消息。 -
info。记录信息、警告和错误消息。 -
warn。仅记录警告和错误消息。 -
error。仅记录错误消息。
默认日志级别为 info。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
openshift-monitoring项目中的cluster-monitoring-config配置映射:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config在
data/config.yaml下为组件添加logLevel: <log_level>:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | <component>:1 logLevel: <log_level>2 - 保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
通过查看相关项目中的部署或 Pod 配置来确认已应用了日志级别。以下示例检查
prometheus-operator部署的日志级别:$ oc -n openshift-monitoring get deploy prometheus-operator -o yaml | grep "log-level"输出示例
- --log-level=debug检查组件的 Pod 是否正在运行。以下示例列出了 pod 的状态:
$ oc -n openshift-monitoring get pods注意如果
ConfigMap中包含了一个未识别的loglevel值,则组件的 Pod 可能无法成功重启。
3.3.5. 为 Prometheus 启用查询日志文件 复制链接链接已复制到粘贴板!
您可以将 Prometheus 配置为将引擎运行的所有查询写入到日志文件。
由于不支持日志轮转,因此仅在需要对问题进行故障排除时才临时启用此功能。完成故障排除后,通过恢复您对 ConfigMap 对象所做的更改来禁用查询日志记录,以启用该功能。
先决条件
-
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。 -
已安装 OpenShift CLI(
oc)。
流程
编辑
openshift-monitoring项目中的cluster-monitoring-config配置映射:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config将 Prometheus 的
queryLogFile参数添加到data/config.yaml下:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | prometheusK8s: queryLogFile: <path>1 - 1
- 添加要记录查询的文件的完整路径。
- 保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
验证组件的 pod 是否正在运行。以下示例命令列出了 pod 的状态:
$ oc -n openshift-monitoring get pods输出示例
... prometheus-operator-567c9bc75c-96wkj 2/2 Running 0 62m prometheus-k8s-0 6/6 Running 1 57m prometheus-k8s-1 6/6 Running 1 57m thanos-querier-56c76d7df4-2xkpc 6/6 Running 0 57m thanos-querier-56c76d7df4-j5p29 6/6 Running 0 57m ...读取查询日志:
$ oc -n openshift-monitoring exec prometheus-k8s-0 -- cat <path>重要在检查了记录的查询信息后,恢复配置映射的设置。
3.3.6. 为 Thanos Querier 启用查询日志记录 复制链接链接已复制到粘贴板!
对于 openshift-monitoring 项目中的默认平台监控,您可以启用 Cluster Monitoring Operator 来记录 Thanos Querier 运行的所有查询。
由于不支持日志轮转,因此仅在需要对问题进行故障排除时才临时启用此功能。完成故障排除后,通过恢复您对 ConfigMap 对象所做的更改来禁用查询日志记录,以启用该功能。
先决条件
-
已安装 OpenShift CLI(
oc)。 -
您可以使用具有
cluster-admin集群角色的用户身份访问集群。 -
您已创建
cluster-monitoring-configConfigMap对象。
流程
您可以在 openshift-monitoring 项目中为 Thanos Querier 启用查询日志记录:
编辑
openshift-monitoring项目中的cluster-monitoring-configConfigMap对象:$ oc -n openshift-monitoring edit configmap cluster-monitoring-config在
data/config.yaml中添加thanosQuerier部分并添加值,如下例所示:apiVersion: v1 kind: ConfigMap metadata: name: cluster-monitoring-config namespace: openshift-monitoring data: config.yaml: | thanosQuerier: enableRequestLogging: <value>1 logLevel: <value>2 - 保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
验证
验证 Thanos Querier pod 是否正在运行。以下示例命令列出了
openshift-monitoring项目中的 pod 状态:$ oc -n openshift-monitoring get pods使用以下示例命令作为模型运行测试查询:
$ token=`oc create token prometheus-k8s -n openshift-monitoring`$ oc -n openshift-monitoring exec -c prometheus prometheus-k8s-0 -- curl -k -H "Authorization: Bearer $token" 'https://thanos-querier.openshift-monitoring.svc:9091/api/v1/query?query=cluster_version'运行以下命令来读取查询日志:
$ oc -n openshift-monitoring logs <thanos_querier_pod_name> -c thanos-query注意因为
thanos-querierpod 是高度可用的(HA)pod,所以您可能只能看到一个 pod 的日志。-
检查日志记录的查询信息后,通过将配置映射中的
enableRequestLogging值更改为false来禁用查询日志记录。