第 10 章 重新引导环境
在某些情况下,您可能需要重新引导环境。例如,当您可能需要修改物理服务器时,您可能需要从电源中断中恢复。在这种情况下,务必要确保 Ceph Storage 节点正确引导。
确保按照以下顺序引导节点:
- 首先引导所有 Ceph 监控节点 - 这样可确保 Ceph 监控服务在高可用性集群中处于活动状态。默认情况下,Ceph Monitor 服务安装在 Controller 节点上。如果 Ceph Monitor 与自定义角色中的 Controller 分开,请确保此自定义 Ceph Monitor 角色处于活动状态。
- 引导所有 Ceph Storage 节点 - 这样可确保 Ceph OSD 集群可以连接到 Controller 节点上的活跃 Ceph Monitor 集群。
10.1. 重新引导 Ceph Storage (OSD) 集群 复制链接链接已复制到粘贴板!
完成以下步骤以重新引导 Ceph Storage (OSD) 节点集群。
先决条件
在运行
ceph-mon服务的 Ceph Monitor 或 Controller 节点上,检查 Red Hat Ceph Storage 集群状态是否健康,pg 状态为active+clean:$ sudo podman exec -it ceph-mon-controller-0 ceph -s如果 Ceph 集群处于健康状态,它会返回
HEALTH_OK状态。如果 Ceph 集群状态不健康,它会返回
HEALTH_WARN或HEALTH_ERR的状态。有关故障排除指南,请参阅 Red Hat Ceph Storage 4 故障排除指南。
步骤
登录到运行
ceph-mon服务的 Ceph Monitor 或 Controller 节点,并临时禁用 Ceph Storage 集群重新平衡:$ sudo podman exec -it ceph-mon-controller-0 ceph osd set noout $ sudo podman exec -it ceph-mon-controller-0 ceph osd set norebalance注意如果您有多堆栈或分布式计算节点(DCN)架构,您必须在设置
noout和norebalance标志时指定集群名称。例如:sudo podman exec -it ceph-mon-controller-0 ceph osd set noout --cluster <cluster_name>- 选择第一个要重新引导的 Ceph Storage 节点并登录到该节点。
重新引导节点:
$ sudo reboot- 稍等片刻,直到节点启动。
登录到节点,并检查集群的状态:
$ sudo podman exec -it ceph-mon-controller-0 ceph status确认
pgmap报告的所有pgs的状态是否都正常 (active+clean)。- 注销节点,重新引导下一个节点,并检查其状态。重复此过程,直到您已重新引导所有 Ceph Storage 节点。
完成后,登录到运行
ceph-mon服务的 Ceph Monitor 或 Controller 节点,然后重新启用集群重新平衡:$ sudo podman exec -it ceph-mon-controller-0 ceph osd unset noout $ sudo podman exec -it ceph-mon-controller-0 ceph osd unset norebalance注意如果您有多堆栈或分布式计算节点(DCN)架构,您必须在取消设置
noout和norebalance标志时指定集群名称。例如:sudo podman exec -it ceph-mon-controller-0 ceph osd set noout --cluster <cluster_name>执行最后的状态检查,确认集群报告
HEALTH_OK:$ sudo podman exec -it ceph-mon-controller-0 ceph status
如果发生所有 overcloud 节点同时引导的情况,Ceph OSD 服务可能无法在 Ceph Storage 节点上正确启动。在这种情况下,重新引导 Ceph Storage OSD,以便它们能够连接到 Ceph Monitor 服务。
使用以下命令,验证 Ceph Storage 节点的集群的
HEALTH_OK状态:$ sudo ceph status