主页
产品
OpenShift Container Platform
4.20
托管 control plane
9.3. 在内部环境中备份和恢复 etcd

9.3. 在内部环境中备份和恢复 etcd

您可以在内部环境中的托管集群中备份和恢复 etcd，以修复失败。

9.3.1. 在内部环境中的托管集群中备份和恢复 etcd
复制链接

通过在托管集群中备份和恢复 etcd，您可以修复故障，如在三个节点集群的 etcd 成员中损坏或缺少数据。如果 etcd 集群的多个成员遇到数据丢失或具有 CrashLoopBackOff 状态，则这种方法有助于防止 etcd 仲裁丢失。

重要

为裸机在一个不同的管理集群中恢复 etcd 只是一个技术预览功能。技术预览功能不受红帽产品服务等级协议（SLA）支持，且功能可能并不完整。红帽不推荐在生产环境中使用它们。这些技术预览功能可以使用户提早试用新的功能，并有机会在开发阶段提供反馈意见。

有关红帽技术预览功能支持范围的更多信息，请参阅以下链接：

技术预览功能支持范围

先决条件

已安装 oc 和 jq 二进制文件。

流程

首先，设置环境变量：

输入以下命令为您的托管集群设置环境变量，根据需要替换值：

$ CLUSTER_NAME=my-cluster

$ HOSTED_CLUSTER_NAMESPACE=clusters

$ CONTROL_PLANE_NAMESPACE="${HOSTED_CLUSTER_NAMESPACE}-${CLUSTER_NAME}"

输入以下命令暂停托管集群的协调，根据需要替换值：

$ oc patch -n ${HOSTED_CLUSTER_NAMESPACE} hostedclusters/${CLUSTER_NAME} \
  -p '{"spec":{"pausedUntil":"true"}}' --type=merge

接下来，使用以下方法之一生成 etcd 快照：

使用之前备份的 etcd 快照。

如果您有可用的 etcd pod，通过完成以下步骤从活跃 etcd pod 创建快照：

输入以下命令列出 etcd pod：

$ oc get -n ${CONTROL_PLANE_NAMESPACE} pods -l app=etcd

输入以下命令为 pod 数据库生成快照并将其保存在您的机器中：

$ ETCD_POD=etcd-0

$ oc exec -n ${CONTROL_PLANE_NAMESPACE} -c etcd -t ${ETCD_POD} -- \
  env ETCDCTL_API=3 /usr/bin/etcdctl \
  --cacert /etc/etcd/tls/etcd-ca/ca.crt \
  --cert /etc/etcd/tls/client/etcd-client.crt \
  --key /etc/etcd/tls/client/etcd-client.key \
  --endpoints=https://localhost:2379 \
  snapshot save /var/lib/snapshot.db

输入以下命令验证快照是否成功：

$ oc exec -n ${CONTROL_PLANE_NAMESPACE} -c etcd -t ${ETCD_POD} -- \
  env ETCDCTL_API=3 /usr/bin/etcdctl -w table snapshot status \
  /var/lib/snapshot.db

输入以下命令制作快照的本地副本：

$ oc cp -c etcd ${CONTROL_PLANE_NAMESPACE}/${ETCD_POD}:/var/lib/snapshot.db \
  /tmp/etcd.snapshot.db

从 etcd 持久性存储生成快照数据库副本：
1. 输入以下命令列出 etcd pod：
  $ oc get -n ${CONTROL_PLANE_NAMESPACE} pods -l app=etcd
2. 输入以下命令查找正在运行的 pod，并将其名称设置为 ETCD_POD: ETCD_POD=etcd-0，然后复制其快照数据库：
  $ oc cp -c etcd \ ${CONTROL_PLANE_NAMESPACE}/${ETCD_POD}:/var/lib/data/member/snap/db \ /tmp/etcd.snapshot.db

接下来，输入以下命令缩减 etcd statefulset：

$ oc scale -n ${CONTROL_PLANE_NAMESPACE} statefulset/etcd --replicas=0

输入以下命令删除第二个和第三个成员的卷：

$ oc delete -n ${CONTROL_PLANE_NAMESPACE} pvc/data-etcd-1 pvc/data-etcd-2

创建 pod 以访问第一个 etcd 成员的数据：

输入以下命令来获取 etcd 镜像：

$ ETCD_IMAGE=$(oc get -n ${CONTROL_PLANE_NAMESPACE} statefulset/etcd \
  -o jsonpath='{ .spec.template.spec.containers[0].image }')

创建允许访问 etcd 数据的 pod：

$ cat << EOF | oc apply -n ${CONTROL_PLANE_NAMESPACE} -f -
apiVersion: apps/v1
kind: Deployment
metadata:
  name: etcd-data
spec:
  replicas: 1
  selector:
    matchLabels:
      app: etcd-data
  template:
    metadata:
      labels:
        app: etcd-data
    spec:
      containers:
      - name: access
        image: $ETCD_IMAGE
        volumeMounts:
        - name: data
          mountPath: /var/lib
        command:
        - /usr/bin/bash
        args:
        - -c
        - |-
          while true; do
            sleep 1000
          done
      volumes:
      - name: data
        persistentVolumeClaim:
          claimName: data-etcd-0
EOF

输入以下命令检查 etcd-data pod 的状态并等待它正在运行：
```
$ oc get -n ${CONTROL_PLANE_NAMESPACE} pods -l app=etcd-data
```

输入以下命令来获取 etcd-data pod 的名称：

$ DATA_POD=$(oc get -n ${CONTROL_PLANE_NAMESPACE} pods --no-headers \
  -l app=etcd-data -o name | cut -d/ -f2)

输入以下命令将 etcd 快照复制到 pod 中：

$ oc cp /tmp/etcd.snapshot.db \
  ${CONTROL_PLANE_NAMESPACE}/${DATA_POD}:/var/lib/restored.snap.db

输入以下命令从 etcd-data pod 中删除旧数据：

$ oc exec -n ${CONTROL_PLANE_NAMESPACE} ${DATA_POD} -- rm -rf /var/lib/data

$ oc exec -n ${CONTROL_PLANE_NAMESPACE} ${DATA_POD} -- mkdir -p /var/lib/data

输入以下命令恢复 etcd 快照：

$ oc exec -n ${CONTROL_PLANE_NAMESPACE} ${DATA_POD} -- \
     etcdutl snapshot restore /var/lib/restored.snap.db \
     --data-dir=/var/lib/data --skip-hash-check \
     --name etcd-0 \
     --initial-cluster-token=etcd-cluster \
     --initial-cluster etcd-0=https://etcd-0.etcd-discovery.${CONTROL_PLANE_NAMESPACE}.svc:2380,etcd-1=https://etcd-1.etcd-discovery.${CONTROL_PLANE_NAMESPACE}.svc:2380,etcd-2=https://etcd-2.etcd-discovery.${CONTROL_PLANE_NAMESPACE}.svc:2380 \
     --initial-advertise-peer-urls https://etcd-0.etcd-discovery.${CONTROL_PLANE_NAMESPACE}.svc:2380

输入以下命令从 pod 中删除临时 etcd 快照：

$ oc exec -n ${CONTROL_PLANE_NAMESPACE} ${DATA_POD} -- \
  rm /var/lib/restored.snap.db

输入以下命令删除数据访问部署：

$ oc delete -n ${CONTROL_PLANE_NAMESPACE} deployment/etcd-data

输入以下命令扩展 etcd 集群：

$ oc scale -n ${CONTROL_PLANE_NAMESPACE} statefulset/etcd --replicas=3

输入以下命令等待 etcd 成员 pod 返回并报告 available：
```
$ oc get -n ${CONTROL_PLANE_NAMESPACE} pods -l app=etcd -w
```

输入以下命令恢复托管集群的协调：

$ oc patch -n ${HOSTED_CLUSTER_NAMESPACE} hostedclusters/${CLUSTER_NAME} \
  -p '{"spec":{"pausedUntil":"null"}}' --type=merge

输入以下命令手动推出托管集群：

$ oc annotate hostedcluster -n \
  <hosted_cluster_namespace> <hosted_cluster_name> \
  hypershift.openshift.io/restart-date=$(date --iso-8601=seconds)

Multus 准入控制器和网络节点身份 pod 尚未启动。

输入以下命令删除第二个和第三个 etcd 成员及其 PVC 的 pod：

$ oc delete -n ${CONTROL_PLANE_NAMESPACE} pvc/data-etcd-1 pod/etcd-1 --wait=false

$ oc delete -n ${CONTROL_PLANE_NAMESPACE} pvc/data-etcd-2 pod/etcd-2 --wait=false

输入以下命令手动推出托管集群：

$ oc annotate hostedcluster -n \
  <hosted_cluster_namespace> <hosted_cluster_name> \
  hypershift.openshift.io/restart-date=$(date --iso-8601=seconds) \
  --overwrite

几分钟后，control plane pod 开始运行。

9.3. 在内部环境中备份和恢复 etcd

9.3.1. 在内部环境中的托管集群中备份和恢复 etcd
复制链接

学习

尝试、购买和销售

社区

關於紅帽

让开源更具包容性

关于红帽文档

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

9.3. 在内部环境中备份和恢复 etcd

9.3.1. 在内部环境中的托管集群中备份和恢复 etcd复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

關於紅帽

让开源更具包容性

关于红帽文档

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

9.3.1. 在内部环境中的托管集群中备份和恢复 etcd
复制链接