第 14 章 处理节点故障
作为存储管理员,您可以在存储集群中遇到整个节点故障,处理节点故障与处理磁盘故障类似。当节点出现故障时,而不是 Ceph 只为一个磁盘恢复放置组(PG),而该节点上的所有 PG 必须恢复该节点内的所有 PG。Ceph 将检测 OSD 是否都停止,并且自动启动恢复过程,称为自我修复。
有三个节点故障场景。以下是替换节点时每个情境的高级工作流:
替换节点,但使用故障节点的根磁盘和 Ceph OSD 磁盘。
- 禁用回填。
- 替换节点,从旧节点获取磁盘,并将它们添加到新节点。
- 启用回填。
替换节点,重新安装操作系统,并使用来自故障节点的 Ceph OSD 磁盘。
- 禁用回填。
- 创建 Ceph 配置的备份。
- 替换节点,再添加来自故障节点的 Ceph OSD 磁盘。
- 将磁盘配置为 JBOD。
- 安装操作系统。
- 恢复 Ceph 配置。
- 使用 Ceph 编排器命令和 Ceph 守护进程自动将新节点添加到存储集群。
- 启用回填。
替换节点、重新安装操作系统和使用所有新的 Ceph OSD 磁盘。
- 禁用回填。
- 从存储集群中移除故障节点上的所有 OSD。
- 创建 Ceph 配置的备份。
替换节点,再添加来自故障节点的 Ceph OSD 磁盘。
- 将磁盘配置为 JBOD。
- 安装操作系统。
- 使用 Ceph 编排器命令和 Ceph 守护进程自动将新节点添加到存储集群。
- 启用回填。
14.1. 先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
- 失败的节点。