第 2 章在 VMware 上部署动态置备的 OpenShift Data Foundation

2.1. 替换 VMware 基础架构上的操作或失败存储设备
复制链接

在新卷上创建新的持久性卷声明(PVC)，并在 OpenShift Data Foundation 中需要替换一个或多个虚拟机磁盘(VMD)时删除旧对象存储设备(OSD)。

先决条件

确保数据具有弹性。
- 在 OpenShift Web 控制台中，点 Storage Data Foundation。
- 点 Storage Systems 选项卡，然后点 ocs-storagecluster-storagesystem。
- 在 Block and File 仪表板的 Status 卡中，在 Overview 选项卡中，验证 Data Resiliency 是否具有绿色勾号。

流程

确定需要替换的 OSD，以及在其上调度 OSD 的 OpenShift Container Platform 节点。

$ oc get -n openshift-storage pods -l app=rook-ceph-osd -o wide

输出示例：

rook-ceph-osd-0-6d77d6c7c6-m8xj6    0/1    CrashLoopBackOff    0    24h   10.129.0.16   compute-2   <none>           <none>
rook-ceph-osd-1-85d99fb95f-2svc7    1/1    Running             0    24h   10.128.2.24   compute-0   <none>           <none>
rook-ceph-osd-2-6c66cdb977-jp542    1/1    Running             0    24h   10.130.0.18   compute-1   <none>           <none>

在本例中，rook-ceph-osd-0-6d77d6c7c6-m8xj6 需要替换，compute-2 是调度 OSD 的 OpenShift Container Platform 节点。

注意

如果要更换的 OSD 处于健康状态，则 Pod 的状态将为 Running。

缩减 OSD 部署，以替换 OSD。
每次您要替换 OSD 时，将 osd_id_to_remove 参数更新为 OSD ID，再重复此步骤。
```
$ osd_id_to_remove=0
```
```
$ oc scale -n openshift-storage deployment rook-ceph-osd-${osd_id_to_remove} --replicas=0
```
其中，osd_id_to_remove 是 pod 名称中紧接在 rook-ceph-osd 前缀后面的整数。在本例中，部署名称为 rook-ceph-osd-0。
输出示例：
```
deployment.extensions/rook-ceph-osd-0 scaled
```

验证 rook-ceph-osd pod 是否已终止。

$ oc get -n openshift-storage pods -l ceph-osd-id=${osd_id_to_remove}

输出示例：

No resources found.

重要

如果 rook-ceph-osd pod 处于 terminating 状态，请使用 force 选项删除 pod。

$ oc delete pod rook-ceph-osd-0-6d77d6c7c6-m8xj6 --force --grace-period=0

输出示例：

warning: Immediate deletion does not wait for confirmation that the running resource has been terminated. The resource may continue to run on the cluster indefinitely.
  pod "rook-ceph-osd-0-6d77d6c7c6-m8xj6" force deleted

从集群中移除旧 OSD，以便您可以添加新 OSD。
1. 删除所有旧的 ocs-osd-removal 任务。
  $ oc delete -n openshift-storage job ocs-osd-removal-job
  输出示例：
  job.batch "ocs-osd-removal-job" deleted
2. 进入 openshift-storage 项目。
  $ oc project openshift-storage
3. 从集群中移除旧 OSD。
  $ oc process -n openshift-storage ocs-osd-removal -p FAILED_OSD_IDS=${osd_id_to_remove} -p FORCE_OSD_REMOVAL=false |oc create -n openshift-storage -f -
  FORCE_OSD_REMOVAL 值必须在有三个 OSD 的集群中更改为"true"，或者有足够空间的集群在移除 OSD 后恢复所有这三个数据副本。
  警告
  这一步会导致 OSD 完全从集群中移除。确保提供了 osd_id_to_remove 的正确值。
通过检查 ocs-osd-removal-job pod 的状态，验证 OSD 是否已成功移除。
状态为 Completed，确认 OSD 移除作业已成功。
```
$ oc get pod -l job-name=ocs-osd-removal-job -n openshift-storage
```

确保 OSD 移除已完成。

$ oc logs -l job-name=ocs-osd-removal-job -n openshift-storage --tail=-1 | egrep -i 'completed removal'

输出示例：

2022-05-10 06:50:04.501511 I | cephosd: completed removal of OSD 0

重要

如果 ocs-osd-removal-job pod 失败且 pod 处于预期的 Completed 状态，请检查 pod 日志以进一步调试。

例如：

# oc logs -l job-name=ocs-osd-removal-job -n openshift-storage --tail=-1

如果在安装时启用了加密，在从相应 OpenShift Data Foundation 节点中删除的 OSD 设备中删除 dm-crypt 关联的 device-mapper 映射。
1. 从 ocs-osd-removal-job pod 日志中获取被替换 OSD 的 PVC 名称。
  $ oc logs -l job-name=ocs-osd-removal-job -n openshift-storage --tail=-1 |egrep -i ‘pvc|deviceset’
  输出示例：
  2021-05-12 14:31:34.666000 I | cephosd: removing the OSD PVC "ocs-deviceset-xxxx-xxx-xxx-xxx"
2. 对于之前标识的每个节点，执行以下操作：
  1. 创建 debug pod 和 chroot 到存储节点上的主机。
    
    $ oc debug node/<node name>
    
    <node name>
    是节点的名称。
    
    $ chroot /host
  2. 根据上一步中标识的 PVC 名称，查找相关的设备名称。
    
    $ dmsetup ls| grep <pvc name>
    
    <pvc name>
    是 PVC 的名称。
    输出示例：
    
    ocs-deviceset-xxx-xxx-xxx-xxx-block-dmcrypt (253:0)
  3. 删除映射的设备。
    
    $ cryptsetup luksClose --debug --verbose ocs-deviceset-xxx-xxx-xxx-xxx-block-dmcrypt
    
    重要
    如果上述命令因为权限不足而卡住，请运行以下命令：
    按 CTRL+Z 退出上述命令。
    查找阻塞的进程的 PID。
    
    $ ps -ef | grep crypt
    
    使用 kill 命令终止进程。
    
    $ kill -9 <PID>
    
    <PID>
    是进程 ID。
    验证设备名称是否已移除。
    
    $ dmsetup ls

删除 ocs-osd-removal 任务。

$ oc delete -n openshift-storage job ocs-osd-removal-job

输出示例：

job.batch "ocs-osd-removal-job" deleted

注意

使用带有数据加密的外部密钥管理系统(KMS)时，可以从 Vault 服务器中删除旧的 OSD 加密密钥，因为它现在是孤立的密钥。

验证步骤

验证是否有新的 OSD 正在运行。

$ oc get -n openshift-storage pods -l app=rook-ceph-osd

输出示例：

rook-ceph-osd-0-5f7f4747d4-snshw                                  1/1     Running     0          4m47s
rook-ceph-osd-1-85d99fb95f-2svc7                                  1/1     Running     0          1d20h
rook-ceph-osd-2-6c66cdb977-jp542                                  1/1     Running     0          1d20h

验证是否创建了处于 Bound 状态的新 PVC。

$ oc get -n openshift-storage pvc

输出示例：

NAME                      STATUS   VOLUME                                     CAPACITY   ACCESS MODES   STORAGECLASS    AGE
ocs-deviceset-0-0-2s6w4   Bound    pvc-7c9bcaf7-de68-40e1-95f9-0b0d7c0ae2fc   512Gi      RWO            thin            5m
ocs-deviceset-1-0-q8fwh   Bound    pvc-9e7e00cb-6b33-402e-9dc5-b8df4fd9010f   512Gi      RWO            thin            1d20h
ocs-deviceset-2-0-9v8lq   Bound    pvc-38cdfcee-ea7e-42a5-a6e1-aaa6d4924291   512Gi      RWO            thin            1d20h

可选：如果在集群中启用了集群范围的加密，请验证新 OSD 设备是否已加密。
1. 识别运行新 OSD pod 的节点。
  $ oc get -n openshift-storage -o=custom-columns=NODE:.spec.nodeName pod/<OSD-pod-name>
  <OSD-pod-name>
  是 OSD pod 的名称。
  例如：
  
  $ oc get -n openshift-storage -o=custom-columns=NODE:.spec.nodeName pod/rook-ceph-osd-0-544db49d7f-qrgqm
  
  输出示例：
  
  NODE compute-1
2. 对于上一步中确定的每个节点，请执行以下操作：
  1. 创建调试 pod，并为所选主机打开 chroot 环境。
    
    $ oc debug node/<node name>
    
    <node name>
    是节点的名称。
    
    $ chroot /host
  2. 检查 ocs-deviceset 名称旁边的 crypt 关键字。
    
    $ lsblk
登录 OpenShift Web 控制台并查看存储仪表板。

第 2 章在 VMware 上部署动态置备的 OpenShift Data Foundation

2.1. 替换 VMware 基础架构上的操作或失败存储设备
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 2 章 在 VMware 上部署动态置备的 OpenShift Data Foundation

2.1. 替换 VMware 基础架构上的操作或失败存储设备复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

第 2 章在 VMware 上部署动态置备的 OpenShift Data Foundation

2.1. 替换 VMware 基础架构上的操作或失败存储设备
复制链接