6.3. 灾难恢复

6.3.1. 关于灾难恢复
复制链接

灾难恢复文档为管理员提供了如何从 OpenShift Container Platform 集群可能出现的几个灾难情形中恢复的信息。作为管理员，您可能需要遵循以下一个或多个步骤将集群恢复为工作状态。

重要

灾难恢复要求您至少有一个健康的 control plane 主机。

仲裁恢复

在已丢失了大多数 control plane 主机并导致 etcd quorum 丢失，且集群离线的情况下，可以使用这个解决方案。这个解决方案不需要 etcd 备份。

注意

如果大多数 control plane 节点仍可用，且有 etcd 仲裁，则替换单个不健康的 etcd 成员。

恢复到一个以前的集群状态

如果您希望将集群恢复到一个以前的状态时（例如，管理员错误地删除了一些关键信息），则可以使用这个解决方案。如果您执行了 etcd 备份，您可以将集群恢复到以前的状态。

如果适用，可能还需要从过期的 control plane 证书中恢复。

警告

在一个正在运行的集群中恢复到以前的集群状态是破坏性的，而不稳定的操作。这仅应作为最后的手段使用。

在执行恢复前，请参阅关于恢复集群状态以了解有关对集群的影响的更多信息。

从 control plane 证书已过期的情况下恢复

如果 control plane 证书已经过期，则可以使用这个解决方案。例如：在第一次证书轮转前（在安装后 24 小时内）关闭了集群，您的证书将不会被轮转，且会过期。可以按照以下步骤从已过期的 control plane 证书中恢复。

6.3.1.1. 测试恢复过程
复制链接

测试恢复过程非常重要，以确保您的自动化和工作负载安全处理新的集群状态。由于 etcd 仲裁的复杂性，以及 etcd Operator 会尝试自动修复，通常很难正确地使您的集群进入一个可以恢复的状态。

警告

您必须有到集群的 SSH 访问权限。如果无法进行 SSH 访问，您的集群可能完全丢失。

先决条件

有到 control plane 主机的 SSH 访问权限。
已安装 OpenShift CLI(oc)。

流程

使用 SSH 连接到每个非恢复节点，并运行以下命令来禁用 etcd 和 kubelet 服务：
1. 运行以下命令来禁用 etcd：
  $ sudo /usr/local/bin/disable-etcd.sh
  Copy to Clipboard Toggle word wrap
2. 运行以下命令来删除 etcd 的变量数据：
  $ sudo rm -rf /var/lib/etcd
  Copy to Clipboard Toggle word wrap
3. 运行以下命令来禁用 kubelet 服务：
  $ sudo systemctl disable kubelet.service
  Copy to Clipboard Toggle word wrap
退出每个 SSH 会话。
运行以下命令，以确保您的非恢复节点处于 NOT READY 状态：
```
oc get nodes
```
```
$ oc get nodes
```
Copy to Clipboard Toggle word wrap
按照"恢复到以前的集群状态"中的步骤来恢复集群。
恢复集群和 API 响应后，使用 SSH 连接到每个非恢复节点并启用 kubelet 服务：
```
sudo systemctl enable kubelet.service
```
```
$ sudo systemctl enable kubelet.service
```
Copy to Clipboard Toggle word wrap
退出每个 SSH 会话。
运行以下命令，观察您的节点返回 READY 状态：
```
oc get nodes
```
```
$ oc get nodes
```
Copy to Clipboard Toggle word wrap
运行以下命令验证 etcd 是否可用：
```
oc get pods -n openshift-etcd
```
```
$ oc get pods -n openshift-etcd
```
Copy to Clipboard Toggle word wrap

如果您的 OpenShift Container Platform 集群使用任何形式的持久性存储，集群的状态通常存储在 etcd 外部。它可能是在 pod 中运行的 Elasticsearch 集群，或者在 StatefulSet 对象中运行的数据库。从 etcd 备份中恢复时，还会恢复 OpenShift Container Platform 中工作负载的状态。但是，如果 etcd 快照是旧的，其状态可能无效或过期。

重要

持久性卷（PV）的内容绝不会属于 etcd 快照的一部分。从 etcd 快照恢复 OpenShift Container Platform 集群时，非关键工作负载可能会访问关键数据，反之亦然。

以下是生成过时状态的一些示例情况：

MySQL 数据库在由 PV 对象支持的 pod 中运行。从 etcd 快照恢复 OpenShift Container Platform 不会使卷恢复到存储供应商上，且不会生成正在运行的 MySQL pod，尽管 pod 会重复尝试启动。您必须通过在存储供应商中恢复卷，然后编辑 PV 以指向新卷来手动恢复这个 pod。
Pod P1 使用卷 A，它附加到节点 X。如果另一个 pod 在节点 Y 上使用相同的卷，则执行 etcd 恢复时，pod P1 可能无法正确启动，因为卷仍然被附加到节点 Y。OpenShift Container Platform 并不知道附加，且不会自动分离它。发生这种情况时，卷必须从节点 Y 手动分离，以便卷可以在节点 X 上附加，然后 pod P1 才可以启动。
在执行 etcd 快照后，云供应商或存储供应商凭证会被更新。这会导致任何依赖于这些凭证的 CSI 驱动程序或 Operator 无法正常工作。您可能需要手动更新这些驱动程序或 Operator 所需的凭证。
在生成 etcd 快照后，会从 OpenShift Container Platform 节点中删除或重命名设备。Local Storage Operator 会为从 /dev/disk/by-id 或 /dev 目录中管理的每个 PV 创建符号链接。这种情况可能会导致本地 PV 引用不再存在的设备。
要解决这个问题，管理员必须：
1. 手动删除带有无效设备的 PV。
2. 从对应节点中删除符号链接。
3. 删除 LocalVolume 或 LocalVolumeSet 对象（请参阅 Storage Configuring persistent storage Persistent storage Persistent storage Deleting the Local Storage Operator Resources）。

6.3.4. 从 control plane 证书已过期的情况下恢复
复制链接

6.3.4.1. 从 control plane 证书已过期的情况下恢复
复制链接

集群可以从过期的 control plane 证书中自动恢复。

但是，您需要手动批准待处理的 node-bootstrapper 证书签名请求（CSR）来恢复 kubelet 证书。对于用户置备的安装，您可能需要批准待处理的 kubelet 服务 CSR。

使用以下步骤批准待处理的 CSR：

流程

获取当前 CSR 列表：

oc get csr

$ oc get csr

Copy to Clipboard

Toggle word wrap

输出示例

NAME        AGE    SIGNERNAME                                    REQUESTOR                                                                   CONDITION
csr-2s94x   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending 
csr-4bd6t   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending
csr-4hl85   13m    kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending 
csr-zhhhp   3m8s   kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending
...

NAME        AGE    SIGNERNAME                                    REQUESTOR                                                                   CONDITION
csr-2s94x   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending


csr-4bd6t   8m3s   kubernetes.io/kubelet-serving                 system:node:<node_name>                                                     Pending
csr-4hl85   13m    kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending


csr-zhhhp   3m8s   kubernetes.io/kube-apiserver-client-kubelet   system:serviceaccount:openshift-machine-config-operator:node-bootstrapper   Pending
...

Copy to Clipboard

Toggle word wrap

1: 一个待处理的 kubelet 服务 CSR（用于用户置备的安装）。
2: 一个待处理的 node-bootstrapper CSR。

查看一个 CSR 的详细信息以验证其是否有效：
```
oc describe csr <csr_name>
```
```
$ oc describe csr <csr_name> 
```
1
Copy to Clipboard Toggle word wrap
1
<csr_name> 是当前 CSR 列表中 CSR 的名称。
批准每个有效的 node-bootstrapper CSR：
```
oc adm certificate approve <csr_name>
```
```
$ oc adm certificate approve <csr_name>
```
Copy to Clipboard Toggle word wrap
对于用户置备的安装，请批准每个有效的 kubelet 服务 CSR：
```
oc adm certificate approve <csr_name>
```
```
$ oc adm certificate approve <csr_name>
```
Copy to Clipboard Toggle word wrap

返回顶部

6.3. 灾难恢复

6.3.1. 关于灾难恢复
复制链接

6.3.1.1. 测试恢复过程
复制链接

6.3.2. 仲裁恢复
复制链接

6.3.2.1. 为高可用性集群恢复 etcd 仲裁
复制链接

6.3.3. 恢复到一个以前的集群状态
复制链接

6.3.3.1. 关于恢复到以前的集群状态
复制链接

6.3.3.2. 将单一节点恢复到以前的集群状态
复制链接

6.3.3.3. 为多个节点恢复到一个以前的集群状态
复制链接

6.3.3.4. 从 etcd 备份手动恢复集群
复制链接

6.3.3.6. 恢复持久性存储状态的问题和解决方法
复制链接

6.3.4. 从 control plane 证书已过期的情况下恢复
复制链接

6.3.4.1. 从 control plane 证书已过期的情况下恢复
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

6.3. 灾难恢复

6.3.1. 关于灾难恢复复制链接链接已复制到粘贴板!

6.3.1.1. 测试恢复过程复制链接链接已复制到粘贴板!

6.3.2. 仲裁恢复复制链接链接已复制到粘贴板!

6.3.2.1. 为高可用性集群恢复 etcd 仲裁复制链接链接已复制到粘贴板!

6.3.3. 恢复到一个以前的集群状态复制链接链接已复制到粘贴板!

6.3.3.1. 关于恢复到以前的集群状态复制链接链接已复制到粘贴板!

6.3.3.2. 将单一节点恢复到以前的集群状态复制链接链接已复制到粘贴板!

6.3.3.3. 为多个节点恢复到一个以前的集群状态复制链接链接已复制到粘贴板!

6.3.3.4. 从 etcd 备份手动恢复集群复制链接链接已复制到粘贴板!

6.3.3.6. 恢复持久性存储状态的问题和解决方法复制链接链接已复制到粘贴板!

6.3.4. 从 control plane 证书已过期的情况下恢复复制链接链接已复制到粘贴板!

6.3.4.1. 从 control plane 证书已过期的情况下恢复复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

6.3.1. 关于灾难恢复
复制链接

6.3.1.1. 测试恢复过程
复制链接

6.3.2. 仲裁恢复
复制链接

6.3.2.1. 为高可用性集群恢复 etcd 仲裁
复制链接

6.3.3. 恢复到一个以前的集群状态
复制链接

6.3.3.1. 关于恢复到以前的集群状态
复制链接

6.3.3.2. 将单一节点恢复到以前的集群状态
复制链接

6.3.3.3. 为多个节点恢复到一个以前的集群状态
复制链接

6.3.3.4. 从 etcd 备份手动恢复集群
复制链接

6.3.3.6. 恢复持久性存储状态的问题和解决方法
复制链接

6.3.4. 从 control plane 证书已过期的情况下恢复
复制链接

6.3.4.1. 从 control plane 证书已过期的情况下恢复
复制链接