第 3 章 处理节点故障


作为存储管理员,您可能会遇到整个节点在存储集群中失败的情况,并且处理节点失败与处理磁盘失败类似。在一个节点失败时,不能只从一个磁盘恢复 PG(placement group),而该节点中磁盘上的所有 PG 必须被恢复。Ceph 将检测 OSD 是否都处于停机状态,并自动启动恢复过程,称为自我修复。

有三个节点故障方案。以下是替换节点时每个场景的高级工作流:

  • 替换节点,但使用故障节点中的 root 和 Ceph OSD 磁盘。

    1. 禁用回填。
    2. 替换节点,将磁盘从旧节点获取,并将它们添加到新节点。
    3. 启用回填.
  • 替换节点,重新安装操作系统,以及从故障节点使用 Ceph OSD 磁盘。

    1. 禁用回填。
    2. 创建 Ceph 配置的备份。
    3. 替换节点,并从故障节点中添加 Ceph OSD 磁盘。

      1. 将磁盘配置为 JBOD.
    4. 安装操作系统。
    5. 恢复 Ceph 配置。
    6. 运行 ceph-ansible
    7. 启用回填.
  • 替换节点,重新安装操作系统,使用所有新的 Ceph OSD 磁盘。

    1. 禁用回填。
    2. 从存储集群中移除故障节点上的所有 OSD。
    3. 创建 Ceph 配置的备份。
    4. 替换节点,并从故障节点中添加 Ceph OSD 磁盘。

      1. 将磁盘配置为 JBOD.
    5. 安装操作系统。
    6. 运行 ceph-ansible
    7. 启用回填.

3.1. 先决条件

  • 一个正在运行的 Red Hat Ceph Storage 集群。
  • 出现故障的节点。
Red Hat logoGithubRedditYoutubeTwitter

学习

尝试、购买和销售

社区

关于红帽文档

通过我们的产品和服务,以及可以信赖的内容,帮助红帽用户创新并实现他们的目标。

让开源更具包容性

红帽致力于替换我们的代码、文档和 Web 属性中存在问题的语言。欲了解更多详情,请参阅红帽博客.

關於紅帽

我们提供强化的解决方案,使企业能够更轻松地跨平台和环境(从核心数据中心到网络边缘)工作。

© 2024 Red Hat, Inc.