第 13 章 处理节点故障
作为存储管理员,您可以在存储集群中遇到整个节点故障,处理节点故障与处理磁盘故障类似。当节点出现故障时,只能为一个磁盘恢复放置组(PG),必须恢复该节点上磁盘上的所有 PG。Ceph 将检测 OSD 是否都停止,并且自动启动恢复过程,称为自我修复。
有三个节点故障场景。
- 使用来自故障节点的 root 和 Ceph OSD 磁盘替换节点。
- 通过重新安装操作系统并使用来自故障节点的 Ceph OSD 磁盘来替换节点。
- 通过重新安装操作系统和使用所有新的 Ceph OSD 磁盘来替换节点。
有关每个节点的替换场景的高级工作流,请参阅 link:https://docs.redhat.com/en/documentation/red_hat_ceph_storage/8/html-single/operations_guide/index##ops_workflow-for 替换-a-node[用于替换节点的工作流]。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
- 失败的节点。
13.1. 在添加或删除节点前的注意事项
Ceph 的一个未完成的功能是能够在运行时添加或删除 Ceph OSD 节点。这意味着,您可以在不关闭存储集群的情况下调整存储集群容量或替换硬件的大小。
在存储集群处于 degraded
状态时,为 Ceph 客户端提供服务的能力也具有操作优势。例如,您可以在常规工作时间内添加或删除硬件,而不是在工作时间外或周末操作。但是,添加和删除 Ceph OSD 节点可能会对性能产生重大影响。
在添加或删除 Ceph OSD 节点前,请考虑以下对存储集群性能的影响:
- 无论您要扩展或减少存储容量,添加或删除 Ceph OSD 节点,都会降低回填存储集群重新平衡。在进行重新平衡期间,Ceph 使用额外的资源,这可能会影响存储集群性能。
- 在生产环境的 Ceph 存储集群中,Ceph OSD 节点具有特定的硬件配置,有助于实现特定类型的存储策略。
- 由于 Ceph OSD 节点是 CRUSH 层次结构中的一部分,因此添加或删除节点的性能通常会影响使用 CRUSH 规则集的池的性能。
其它资源
- 如需了解更多详细信息,请参阅 Red Hat Ceph Storage 策略指南。