第 3 章 处理节点故障
作为存储管理员,您可能会遇到整个节点在存储集群中失败的情况,并且处理节点失败与处理磁盘失败类似。在一个节点失败时,不能只从一个磁盘恢复 PG(placement group),而该节点中磁盘上的所有 PG 必须被恢复。Ceph 将检测 OSD 是否都处于停机状态,并自动启动恢复过程,称为自我修复。
有三个节点故障方案。以下是替换节点时每个场景的高级工作流:
替换节点,但使用故障节点中的 root 和 Ceph OSD 磁盘。
- 禁用回填。
- 替换节点,将磁盘从旧节点获取,并将它们添加到新节点。
- 启用回填.
替换节点,重新安装操作系统,以及从故障节点使用 Ceph OSD 磁盘。
- 禁用回填。
- 创建 Ceph 配置的备份。
替换节点,并从故障节点中添加 Ceph OSD 磁盘。
- 将磁盘配置为 JBOD.
- 安装操作系统。
- 恢复 Ceph 配置。
-
运行
ceph-ansible
。 - 启用回填.
替换节点,重新安装操作系统,使用所有新的 Ceph OSD 磁盘。
- 禁用回填。
- 从存储集群中移除故障节点上的所有 OSD。
- 创建 Ceph 配置的备份。
替换节点,并从故障节点中添加 Ceph OSD 磁盘。
- 将磁盘配置为 JBOD.
- 安装操作系统。
-
运行
ceph-ansible
。 - 启用回填.
3.1. 先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
- 出现故障的节点。