3.2.3.6. 恢复
Ceph 专为容错而设计,其规模在于硬件和软件问题持续存在的规模。当 OSD 到达 down
时,其内容可能会低于 PG 中其他副本的当前状态。当 OSD 恢复 up
时,必须更新 PG 的内容来反映当前状态。在该期间内,OSD 可能会反映 recovering
状态。
恢复并不总是简单,因为硬件故障可能会导致多个 OSD 的级联故障。例如,一个机架或机柜的网络交换机可能会失败,这会导致多台主机计算机的 OSD 落于集群的当前状态后。故障解决后,每一 OSD 必须恢复。
Ceph 提供多个设置,以平衡新服务请求与恢复数据对象并将 PG 恢复到当前状态的需要之间的资源争用。osd recovery delay start
设置允许 OSD 在开始恢复过程前重启、重复甚至处理一些请求。osd recovery threads
设置限制恢复过程的线程数量,默认为一个线程。osd recovery thread timeout
设置线程超时,因为多个 OSD 可能会以加号的速度失败、重启和重新创建。osd recovery max active
设置限制 OSD 同时进入的恢复请求数量,以防止 OSD 无法服务。osd recovery max chunk
设置限制恢复的数据块的大小,以防止网络拥塞。