10.7. 区域了解数据复制

PDF

在 logging 子系统 5.8 及更新的版本中，Loki Operator 通过 pod 拓扑分布限制提供对区感知数据复制的支持。启用这个功能可提高可靠性，并防止出现单一区域故障的日志丢失。在将部署大小配置为 1x.extra.small、1x.small 或 1x.medium 时，replication.factor 字段会自动设置为 2。

为确保正确复制，您需要至少具有与复制因子指定的可用区数量。虽然可用区可能会比复制因素更多，但区域数量较少可能会导致写入失败。每个区域应托管相等的实例数量，以实现最佳操作。

启用区复制的 LokiStack CR 示例

apiVersion: loki.grafana.com/v1
kind: LokiStack
metadata:
 name: logging-loki
 namespace: openshift-logging
spec:
 replicationFactor: 2 1
 replication:
   factor: 2 2
   zones:
   -  maxSkew: 1 3
      topologyKey: topology.kubernetes.io/zone 4

1: 弃用的字段，输入的值会被 replication.factor 覆盖。
2: 当在设置时选择部署大小时，会自动设置这个值。
3: 两个拓扑域间的 pod 数量的最大差别。默认值为 1，您无法指定 0。
4: 以与节点标签对应的拓扑键的形式定义区域。

10.7.1. 从失败的区恢复 Loki pod

在 Red Hat OpenShift Service on AWS 中，当特定可用区资源无法访问时，会出现一个区故障。可用性区域是云提供商数据中心内的隔离区域，旨在增强冗余和容错能力。如果您的 Red Hat OpenShift Service on AWS 集群没有配置为处理这个问题，则区故障可能会导致服务或数据丢失。

Loki pod 是 StatefulSet 的一部分，它们附带 StorageClass 对象置备的 PVC。每个 Loki pod 及其 PVC 驻留在同一区域中。当在集群中发生区故障时，StatefulSet 控制器会自动尝试恢复失败的区中受影响的 pod。

警告

以下流程将删除失败的区中的 PVC，以及其中包含的所有数据。为了避免完成数据丢失的 LokiStack CR 的 replication factor 字段，应该始终设置为大于 1 的值，以确保 Loki 复制。

先决条件

日志记录版本 5.8 或更高版本。
验证 LokiStack CR 是否具有大于 1 的复制因素。
control plane 检测到区失败，故障区中的节点由云供应商集成标记。

StatefulSet 控制器会自动尝试重新调度失败的区中的 pod。因为关联的 PVC 也位于失败的区中，所以自动重新调度到不同的区无法正常工作。您必须手动删除失败的区中 PVC，以便在新区中成功重新创建有状态 Loki Pod 及其置备的 PVC。

流程

运行以下命令，列出处于 Pending 状态的 pod：

oc get pods --field-selector status.phase==Pending -n openshift-logging

oc get pods 输出示例

NAME                           READY   STATUS    RESTARTS   AGE 1
logging-loki-index-gateway-1   0/1     Pending   0          17m
logging-loki-ingester-1        0/1     Pending   0          16m
logging-loki-ruler-1           0/1     Pending   0          16m

1

这些 pod 处于 Pending 状态，因为它们对应的 PVC 位于失败的区中。

运行以下命令，列出处于 Pending 状态的 PVC：

oc get pvc -o=json -n openshift-logging | jq '.items[] | select(.status.phase == "Pending") | .metadata.name' -r

oc get pvc 输出示例

storage-logging-loki-index-gateway-1
storage-logging-loki-ingester-1
wal-logging-loki-ingester-1
storage-logging-loki-ruler-1
wal-logging-loki-ruler-1

运行以下命令，删除 pod 的 PVC：

oc delete pvc __<pvc_name>__  -n openshift-logging

然后，运行以下命令来删除 pod：

oc delete pod __<pod_name>__  -n openshift-logging

成功删除这些对象后，应在可用区域中自动重新调度它们。

10.7.1.1. 对处于终止状态的 PVC 进行故障排除

如果 PVC 元数据终结器被设置为 kubernetes.io/pv-protection，PVC 可能会处于 terminating 状态。删除终结器应该允许 PVC 成功删除。

运行以下命令删除每个 PVC 的终结器，然后重试删除。

oc patch pvc __<pvc_name>__ -p '{"metadata":{"finalizers":null}}' -n openshift-logging

其他资源

10.7. 区域了解数据复制

10.7.1. 从失败的区恢复 Loki pod

10.7.1.1. 对处于终止状态的 PVC 进行故障排除

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Red Hat legal and privacy links

Red Hat legal and privacy links