5.5. 为大型 Ceph 集群增加重启延迟
在升级过程中,每个 Ceph 监控和 OSD 会按顺序停止。在成功重启同一服务前,迁移不会继续。Ansible 等待 15 秒(延迟),并检查服务启动(重试)的 5 次。如果服务没有重启,则迁移会停止,以便操作员可以干预。
根据 Ceph 集群的大小,您可能需要增加重试或延迟值。这些参数的确切名称及其默认值如下:
health_mon_check_retries: 5 health_mon_check_delay: 15 health_osd_check_retries: 5 health_osd_check_delay: 15
health_mon_check_retries: 5
health_mon_check_delay: 15
health_osd_check_retries: 5
health_osd_check_delay: 15
您可以更新这些参数的默认值。例如,要让集群检查 30 次,并在每个检查 Ceph OSD 的检查 20 秒之间等待 40 秒,并在每个检查 Ceph MON 的检查之间等待 10 秒,请使用 openstack overcloud deploy
命令传递以下参数: