3.3. 为核心平台监控存储和记录数据

3.3.1. 配置持久性存储
复制链接

使用持久性存储运行集群监控以获取以下优点：

通过将指标和警报数据存储在持久性卷(PV)中来保护您的指标和警报数据。因此，它们可以在 pod 重启或重新创建后保留。
避免获取重复的通知，并在 Alertmanager pod 重启时丢失警报静默。

重要

在多节点集群中，您必须为 Prometheus 和 Alertmanager 配置持久性存储，以确保高可用性。

注意

在生产环境中，强烈建议配置持久性存储。

3.3.1.1. 持久性存储的先决条件
复制链接

分配充足的专用持久性存储，以确保磁盘不会被填满。
在配置持久性卷时，使用 Filesystem 作为 volumeMode 参数的存储类型值。
重要
- 不要使用原始块卷，它由 PersistentVolume 资源中的 volumeMode: Block 描述。Prometheus 无法使用原始块卷。
- Prometheus 不支持兼容 POSIX 的文件系统。例如，一些 NFS 文件系统实现不兼容 POSIX。如果要使用 NFS 文件系统进行存储，请验证与其 NFS 实现完全兼容 POSIX 的供应商。

3.3.1.2. 配置持久性卷声明
复制链接

要将持久性卷 (PV) 用于监控组件，您必须配置持久性卷声明 (PVC)。

先决条件

您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。
已安装 OpenShift CLI(oc)。

流程

编辑 openshift-monitoring 项目中的 cluster-monitoring-config 配置映射：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```

将组件的 PVC 配置添加到 data/config.yaml 下：

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    <component>:

1


      volumeClaimTemplate:
        spec:
          storageClassName: <storage_class>

2


          resources:
            requests:
              storage: <amount_of_storage>

3

1: 指定要配置 PVC 的监控组件。
2: 指定现有存储类。如果没有指定存储类，则使用默认存储类。
3: 指定所需的存储量。

以下示例配置了一个 PVC 来声明 Prometheus 的持久性存储：

PVC 配置示例

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    prometheusK8s:
      volumeClaimTemplate:
        spec:
          storageClassName: my-storage-class
          resources:
            requests:
              storage: 40Gi

保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署并应用新的存储配置。
警告
当您使用 PVC 配置更新配置映射时，受影响的 StatefulSet 对象会被重新创建，从而导致临时服务中断。

3.3.1.3. 重新定义持久性卷大小
复制链接

您可以为监控组件（如 Prometheus 或 Alertmanager）重新定义持久性卷(PV)大小。您需要手动扩展持久性卷声明 (PVC)，然后更新配置组件的配置映射。

重要

您只能扩展 PVC 的大小。无法缩小存储大小。

先决条件

您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。
至少有一个 PVC 用于 OpenShift Container Platform 核心监控组件。
已安装 OpenShift CLI(oc)。

流程

使用更新的存储请求手动扩展 PVC。如需更多信息，请参阅 扩展持久性卷 中的"使用文件系统扩展持久性卷声明 (PVC) "。
编辑 openshift-monitoring 项目中的 cluster-monitoring-config 配置映射：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```

在 data/config.yaml 下为组件添加新存储大小：

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    <component>:

1


      volumeClaimTemplate:
        spec:
          resources:
            requests:
              storage: <amount_of_storage>

2

1: 要更改存储大小的组件。
2: 指定存储卷的新大小。它必须大于上一个值。

以下示例将 Prometheus 实例的新 PVC 请求设置为 100GB：

prometheusK8s 的存储配置示例

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    prometheusK8s:
      volumeClaimTemplate:
        spec:
          resources:
            requests:
              storage: 100Gi

保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
警告
当您使用新存储大小更新配置映射时，受影响的 StatefulSet 对象会被重新创建，从而导致临时服务中断。

3.3.2. 修改 Prometheus 指标数据的保留时间和大小
复制链接

默认情况下，Prometheus 为核心平台监控保留 15 天指标数据。您可以修改 Prometheus 实例的保留时间，以便在删除数据时更改。您还可以设置保留指标数据使用的最大磁盘空间量。

注意

数据压缩每两小时进行一次。因此，持久性卷 (PV) 可能会在压缩前已被填满，可能会超过 retentionSize 限制。在这种情况下，KubePersistentVolumeFillingUp 警报会触发，直到 PV 上的空间低于 retentionSize 限制。

先决条件

您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。
已安装 OpenShift CLI(oc)。

流程

编辑 openshift-monitoring 项目中的 cluster-monitoring-config 配置映射：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```
在 data/config.yaml 下添加保留时间和大小配置：
```
apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    prometheusK8s:
      retention: <time_specification> 
```
1
```
      retentionSize: <size_specification> 
```
2
1
保留时间：数字直接加上 ms （毫秒）、s （秒）、m （分钟）、h （小时）、d （天）、w （周）或 y （年）。您还可以组合指定时间值，如 1h30m15s。
2
保留大小：数字直接加上 B (bytes), KB (kilobytes), MB (megabytes), GB (gigabytes), TB (terabytes), PB (petabytes), 和 EB (exabytes).。
以下示例将 Prometheus 实例的保留时间设置为 24 小时，保留大小设为 10GB：
为 Prometheus 设置保留时间示例
```
apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    prometheusK8s:
      retention: 24h
      retentionSize: 10GB
```
保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。

3.3.3. 为 Metrics Server 配置审计日志
复制链接

您可以为 Metrics Server 配置审计日志，以帮助您对服务器问题进行故障排除。审计日志记录集群中的操作序列。它可以记录用户、应用程序或 control plane 的活动。

您可以配置审计日志规则，以记录特定事件和相关数据的子集。以下审计配置集定义配置规则：

Metadata （默认）：此配置集记录事件元数据，包括用户、时间戳、资源和操作。它不会记录请求和响应正文。
Request: 此配置集记录事件元数据和请求正文，但不记录响应正文。此配置不适用于非资源请求。
RequestResponse ：此配置集记录事件元数据，以及请求和响应正文。此配置不适用于非资源请求。
None：以前提到的事件都不会被记录。

先决条件

您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。
已安装 OpenShift CLI(oc)。

流程

编辑 openshift-monitoring 项目中的 cluster-monitoring-config 配置映射：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```

将 Metrics 服务器的审计日志配置添加到 data/config.yaml 下：

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    metricsServer:
      audit:
        profile: <audit_log_profile>

1

1: 指定 Metrics 服务器的审计配置集。

保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。

验证是否应用了 audit 配置集：

$ oc -n openshift-monitoring get deploy metrics-server -o yaml | grep -- '--audit-policy-file=*'

输出示例

        - --audit-policy-file=/etc/audit/request-profile.yaml

3.3.4. 为监控组件设置日志级别
复制链接

您可以为 Alertmanager、Prometheus Operator、Prometheus 和 Thanos Querier 配置日志级别。

以下日志级别可应用到 cluster-monitoring-config ConfigMap 对象中的相关组件：

debug。记录调试、信息、警告和错误消息。
info。记录信息、警告和错误消息。
warn。仅记录警告和错误消息。
error。仅记录错误消息。

默认日志级别为 info。

先决条件

您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。
已安装 OpenShift CLI(oc)。

流程

编辑 openshift-monitoring 项目中的 cluster-monitoring-config 配置映射：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```
在 data/config.yaml 下为组件添加 logLevel: <log_level>：
```
apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    <component>: 
```
1
```
      logLevel: <log_level> 
```
2
1
您要为其设置日志级别的监控堆栈组件。可用的组件值包括 prometheusK8s、alertmanagerMain、prometheusOperator 和 thanosQuerier。
2
为组件设置的日志级别。可用值为 error、warn、info 和 debug。默认值为 info。
保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。
通过查看相关项目中的部署或 Pod 配置来确认已应用了日志级别。以下示例检查 prometheus-operator 部署的日志级别：
```
$ oc -n openshift-monitoring get deploy prometheus-operator -o yaml | grep "log-level"
```
输出示例
```
        - --log-level=debug
```
检查组件的 Pod 是否正在运行。以下示例列出了 pod 的状态：
```
$ oc -n openshift-monitoring get pods
```
注意
如果 ConfigMap 中包含了一个未识别的 loglevel 值，则组件的 Pod 可能无法成功重启。

3.3.5. 为 Prometheus 启用查询日志文件
复制链接

您可以将 Prometheus 配置为将引擎运行的所有查询写入到日志文件。

重要

由于不支持日志轮转，因此仅在需要对问题进行故障排除时才临时启用此功能。完成故障排除后，通过恢复您对 ConfigMap 对象所做的更改来禁用查询日志记录，以启用该功能。

先决条件

您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。
已安装 OpenShift CLI(oc)。

流程

编辑 openshift-monitoring 项目中的 cluster-monitoring-config 配置映射：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```

将 Prometheus 的 queryLogFile 参数添加到 data/config.yaml 下：

apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    prometheusK8s:
      queryLogFile: <path>

1

1: 添加要记录查询的文件的完整路径。

保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。

验证组件的 pod 是否正在运行。以下示例命令列出了 pod 的状态：

$ oc -n openshift-monitoring get pods

输出示例

...
prometheus-operator-567c9bc75c-96wkj   2/2     Running   0          62m
prometheus-k8s-0                       6/6     Running   1          57m
prometheus-k8s-1                       6/6     Running   1          57m
thanos-querier-56c76d7df4-2xkpc        6/6     Running   0          57m
thanos-querier-56c76d7df4-j5p29        6/6     Running   0          57m
...

读取查询日志：
```
$ oc -n openshift-monitoring exec prometheus-k8s-0 -- cat <path>
```
重要
在检查了记录的查询信息后，恢复配置映射的设置。

3.3.6. 为 Thanos Querier 启用查询日志记录
复制链接

对于 openshift-monitoring 项目中的默认平台监控，您可以启用 Cluster Monitoring Operator 来记录 Thanos Querier 运行的所有查询。

重要

由于不支持日志轮转，因此仅在需要对问题进行故障排除时才临时启用此功能。完成故障排除后，通过恢复您对 ConfigMap 对象所做的更改来禁用查询日志记录，以启用该功能。

先决条件

已安装 OpenShift CLI(oc)。
您可以使用具有 cluster-admin 集群角色的用户身份访问集群。
您已创建 cluster-monitoring-config ConfigMap 对象。

流程

您可以在 openshift-monitoring 项目中为 Thanos Querier 启用查询日志记录：

编辑 openshift-monitoring 项目中的 cluster-monitoring-config ConfigMap 对象：
```
$ oc -n openshift-monitoring edit configmap cluster-monitoring-config
```
在 data/config.yaml 中添加 thanosQuerier 部分并添加值，如下例所示：
```
apiVersion: v1
kind: ConfigMap
metadata:
  name: cluster-monitoring-config
  namespace: openshift-monitoring
data:
  config.yaml: |
    thanosQuerier:
      enableRequestLogging: <value> 
```
1
```
      logLevel: <value> 
```
2
1
将值设为 true 以启用日志记录，并将 false 设置为 disable logging。默认值为 false。
2
将值设为 debug、info、warn 或 error。如果 logLevel 没有值，则日志级别默认为 error。
保存文件以使改变生效。受新配置影响的 Pod 会自动重新部署。

验证

验证 Thanos Querier pod 是否正在运行。以下示例命令列出了 openshift-monitoring 项目中的 pod 状态：
```
$ oc -n openshift-monitoring get pods
```

使用以下示例命令作为模型运行测试查询：

$ token=`oc create token prometheus-k8s -n openshift-monitoring`

$ oc -n openshift-monitoring exec -c prometheus prometheus-k8s-0 -- curl -k -H "Authorization: Bearer $token" 'https://thanos-querier.openshift-monitoring.svc:9091/api/v1/query?query=cluster_version'

运行以下命令来读取查询日志：
```
$ oc -n openshift-monitoring logs <thanos_querier_pod_name> -c thanos-query
```
注意
因为 thanos-querier pod 是高度可用的(HA)pod，所以您可能只能看到一个 pod 的日志。
检查日志记录的查询信息后，通过将配置映射中的 enableRequestLogging 值更改为 false 来禁用查询日志记录。

3.3.1. 配置持久性存储
复制链接

3.3.1.1. 持久性存储的先决条件
复制链接

3.3.1.2. 配置持久性卷声明
复制链接

3.3.1.3. 重新定义持久性卷大小
复制链接

3.3.2. 修改 Prometheus 指标数据的保留时间和大小
复制链接

3.3.3. 为 Metrics Server 配置审计日志
复制链接

3.3.4. 为监控组件设置日志级别
复制链接

3.3.5. 为 Prometheus 启用查询日志文件
复制链接

3.3.6. 为 Thanos Querier 启用查询日志记录
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

3.3. 为核心平台监控存储和记录数据

3.3.1. 配置持久性存储复制链接链接已复制到粘贴板!

3.3.1.1. 持久性存储的先决条件复制链接链接已复制到粘贴板!

3.3.1.2. 配置持久性卷声明复制链接链接已复制到粘贴板!

3.3.1.3. 重新定义持久性卷大小复制链接链接已复制到粘贴板!

3.3.2. 修改 Prometheus 指标数据的保留时间和大小复制链接链接已复制到粘贴板!

3.3.3. 为 Metrics Server 配置审计日志复制链接链接已复制到粘贴板!

3.3.4. 为监控组件设置日志级别复制链接链接已复制到粘贴板!

3.3.5. 为 Prometheus 启用查询日志文件复制链接链接已复制到粘贴板!

3.3.6. 为 Thanos Querier 启用查询日志记录复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

3.3.1. 配置持久性存储
复制链接

3.3.1.1. 持久性存储的先决条件
复制链接

3.3.1.2. 配置持久性卷声明
复制链接

3.3.1.3. 重新定义持久性卷大小
复制链接

3.3.2. 修改 Prometheus 指标数据的保留时间和大小
复制链接

3.3.3. 为 Metrics Server 配置审计日志
复制链接

3.3.4. 为监控组件设置日志级别
复制链接

3.3.5. 为 Prometheus 启用查询日志文件
复制链接

3.3.6. 为 Thanos Querier 启用查询日志记录
复制链接