3.7. 模拟节点失败
要模拟硬节点故障,请关闭该节点并重新安装操作系统。
先决条件
- 一个正常运行的 Red Hat Ceph Storage 集群。
- 对存储集群中所有节点的 root 级别访问。
流程
- 检查存储集群的容量,以了解删除节点的影响: - 示例 - ceph df rados df ceph osd df - [root@ceph1 ~]# ceph df [root@ceph1 ~]# rados df [root@ceph1 ~]# ceph osd df- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- (可选)禁用恢复和回填: - 示例 - ceph osd set noout ceph osd set noscrub ceph osd set nodeep-scrub - [root@ceph1 ~]# ceph osd set noout [root@ceph1 ~]# ceph osd set noscrub [root@ceph1 ~]# ceph osd set nodeep-scrub- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 关闭节点。
- 如果要更改主机名,请从 CRUSH 映射中删除节点: - 示例 - ceph osd crush rm ceph3 - [root@ceph1 ~]# ceph osd crush rm ceph3- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 检查存储集群的状态: - 示例 - ceph -s - [root@ceph1 ~]# ceph -s- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 在节点上重新安装操作系统。
- 添加 Ansible 用户并生成 SSH 密钥: - 示例 - Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 在 Ansible 管理节点中,在重新安装的节点上复制 - ansible用户的 SSH 密钥:- ssh-copy-id ceph3 - [ansible@admin ~]$ ssh-copy-id ceph3- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 在 Ansible 管理节点中,再次运行 Ansible playbook: - 示例 - Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- (可选)启用恢复和回填: - 示例 - ceph osd unset noout ceph osd unset noscrub ceph osd unset nodeep-scrub - [root@ceph3 ~]# ceph osd unset noout [root@ceph3 ~]# ceph osd unset noscrub [root@ceph3 ~]# ceph osd unset nodeep-scrub- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 检查 Ceph 的健康状况: - 示例 - Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
其它资源
- Red Hat Ceph Storage 安装指南.
- 如需了解有关 Ansible 清单配置的更多详细信息,请参阅 {storage_product} 安装指南中的配置 Ansible 清单位置部分。