搜索

8.2. 恢复不健康的 etcd 集群

download PDF

在高可用性 control plane 中,三个 etcd pod 作为 etcd 集群中有状态集的一部分运行。要恢复 etcd 集群,请通过检查 etcd 集群健康状况来识别不健康的 etcd pod。

8.2.1. 检查 etcd 集群的状态

您可以通过登录到任何 etcd pod 来检查 etcd 集群健康状态。

流程

  1. 输入以下命令登录到 etcd pod:

    $ oc rsh -n <hosted_control_plane_namespace> -c etcd <etcd_pod_name>
  2. 输入以下命令输出 etcd 集群的健康状况:

    sh-4.4$ etcdctl endpoint health --cluster -w table

    输出示例

    ENDPOINT                                                HEALTH  TOOK        ERROR
    https://etcd-0.etcd-discovery.clusters-hosted.svc:2379  true    9.117698ms

8.2.2. 恢复失败的 etcd pod

3 节点集群的每个 etcd pod 都有自己的持久性卷声明 (PVC) 来存储其数据。由于数据损坏或缺少数据,etcd pod 可能会失败。您可以恢复 etcd pod 及其 PVC 失败。

流程

  1. 要确认 etcd pod 失败,请输入以下命令:

    $ oc get pods -l app=etcd -n <hosted_control_plane_namespace>

    输出示例

    NAME     READY   STATUS             RESTARTS     AGE
    etcd-0   2/2     Running            0            64m
    etcd-1   2/2     Running            0            45m
    etcd-2   1/2     CrashLoopBackOff   1 (5s ago)   64m

    失败的 etcd pod 可能具有 CrashLoopBackOffError 状态。

  2. 输入以下命令删除失败的 pod 及其 PVC:

    $ oc delete pvc/<etcd_pvc_name> pod/<etcd_pod_name> --wait=false

验证

  • 输入以下命令验证新 etcd pod 是否正在运行:

    $ oc get pods -l app=etcd -n <hosted_control_plane_namespace>

    输出示例

    NAME     READY   STATUS    RESTARTS   AGE
    etcd-0   2/2     Running   0          67m
    etcd-1   2/2     Running   0          48m
    etcd-2   2/2     Running   0          2m2s

Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.