11.2. 替换 Ceph 仪表板上的故障 OSD
您可以将 Red Hat Ceph Storage 集群中的故障 OSD 替换为仪表板上访问的 cluster-manager
级别。控制面板中的这一功能的亮点之一是,在替换故障 OSD 时可以保留 OSD ID。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
-
至少需要
cluster-manager
级别访问 Ceph 控制面板。 -
至少一个 OSD 为
down
流程
在仪表板中,您可以使用以下方法识别失败的 OSD:
- 仪表板 AlertManager 弹出通知。
- 仪表板登录页面,显示 HEALTH_WARN 状态。
- 显示故障 OSD 的仪表板登录页面。
显示故障 OSD 的仪表板 OSD 页面。
在本例中,您可以看到其中一个 OSD 在仪表板的登录页面上停机。
如果其中一个 OSD 停机,您也可以查看物理驱动器上的 LED blinking light。
从 Cluster→OSDs,在 OSD 列表 表中选择
out
和down
OSD。- 单击操作下拉菜单中的 Flags,在单个 OSD 标记 表单中选择 No Up,然后单击 Update。
- 从操作下拉列表中点 Delete。在 Delete OSD 通知中,选择 Preserve OSD ID for replacement 和 Yes, I am sure,再单击 Delete OSD。
- 等待 OSD 的状态变为 out 和 destroyed。
可选: 要更改整个集群的 No Up Flag,请从 集群范围的配置 菜单中选择 Flags。
- 在 集群范围的 OSD 标记 表单中,选择 No Up 并点 Update。
可选:如果 OSD 由于硬盘失败而停机,请替换物理驱动器:
- 如果驱动器支持热插拔,请将失败的驱动器替换为新驱动器。
- 如果驱动器不可热插拔并且主机包含多个 OSD,您可能需要关闭整个主机并替换物理驱动器。考虑防止集群回填。详情请参阅 Red Hat Ceph Storage 故障排除指南中的停止和启动 重新平衡 章节。
-
当驱动器出现在
/dev/
目录下时,请注意驱动器路径。 - 如果要手动添加 OSD,找到 OSD 驱动器并格式化磁盘。
如果新磁盘有数据,则 zap 磁盘:
语法
ceph orch device zap HOST_NAME PATH --force
示例
ceph orch device zap ceph-adm2 /dev/sdc --force
- 从 Ceph 控制面板 OSD 列表,单击 Create。
在 Create OSD 表单 Advanced Mode 部分中,添加一个主设备。
- 在 主设备 对话框中,选择一个 主机名 过滤器。
从列表中选择一个设备类型。
注意您必须首先选择 Hostname,然后至少一个过滤器来添加设备。
例如,从 Hostname 列表中选择
Type
,然后选择hdd
。选择 Vendor 和 from device 列表中,选择
ATA
。- 点击 Add。
- 在 Create OSD 表单中,单击 Preview。
在 OSD Creation Preview 对话框中,单击 Create。
通知显示 OSD 已成功创建,并且 OSD 更改处于
out
和down
状态。
选择新创建的具有 out 和 down 状态的 OSD。
- 从操作下拉列表中点 Mark In。
在通知 中的 Mark OSD 中,单击 Mark In。
OSD 状态更改为 中的。
- 从操作下拉列表中点 Flags。
- 清除 No Up selection 并点 Update。
可选: 如果您在集群范围的配置前更改了 No Up 标志,在 集群范围的配置 菜单中选择 Flags。
- 在 集群范围的 OSD 标记 表单中,清除 No Up selection 并点 Update。
验证
验证已销毁的 OSD 是否在设备上创建,并且 OSD ID 已被保留。
其它资源
- 有关故障 OSD 的更多信息,请参阅 Red Hat Ceph Storage 故障排除指南中的 故障 OSD 部分。
- 如需了解更多帮助,请参阅 Red Hat Ceph Storage 故障排除指南中的红帽对服务的支持 部分。
- 如需有关系统角色的更多信息,请参阅 Red Hat Ceph Storage 仪表板指南中的在 Ceph 仪表板上管理角色 部分。