4.7. 恢复 Ceph 监控存储

Ceph Monitor 将 cluster map 存储在键值存储中，如 RocksDB。如果存储在 monitor 上损坏，monitor 会意外终止，无法再次启动。Ceph 日志可能包括以下错误：

Corruption: error in middle of record
Corruption: 1 missing files; e.g.: /var/lib/ceph/mon/mon.0/store.db/1234567.ldb

Corruption: error in middle of record
Corruption: 1 missing files; e.g.: /var/lib/ceph/mon/mon.0/store.db/1234567.ldb

Copy to Clipboard

Toggle word wrap

Red Hat Ceph Storage 集群至少使用三个 Ceph 监控器，以便在出现故障时将其替换为另一个 Ceph。然而，在某些情况下，所有 Ceph 监控器可能会损坏存储。例如，当 Ceph 监控节点配置错误的磁盘或文件系统设置时，断电可能会破坏底层文件系统。

如果所有 Ceph 监控上都存在损坏，则可以使用名为 ceph-monstore-tool 和 ceph-objectstore-tool 的实用程序，通过 OSD 节点上存储的信息来恢复它。

重要

这些步骤无法恢复以下信息：

元数据守护进程服务器(MDS)密钥环和映射
放置组设置：
- 使用 ceph pg set_full_ratio 命令设置 完整比率
- 使用 ceph pg set_nearfull_ratio 命令设置的 nearfull 比率

重要

切勿从旧备份恢复 Ceph 监控存储。使用下列步骤从当前集群状态重建 Ceph monitor 存储，并从中恢复。

4.7.1. 使用 BlueStore 时恢复 Ceph monitor 存储
复制链接

如果 Ceph monitor 存储在所有 Ceph 监控上损坏并且您使用 BlueStore 后端，请按照以下步骤操作。

在容器化环境中，此方法需要附加 Ceph 存储库并首先恢复到非容器化 Ceph monitor。

警告

这个过程可能会导致数据丢失。如果您不确定这个过程中的任何步骤，请联系红帽技术支持以获取恢复过程的帮助。

先决条件

所有 OSD 容器都已停止。
根据 Ceph 节点上的角色，启用 Ceph 存储库。
ceph-test 和 rsync 软件包安装在 OSD 和 monitor 节点上。
ceph-mon 软件包安装在 monitor 节点上。
ceph-osd 软件包安装在 OSD 节点上。

流程

使用 Ceph 数据挂载所有磁盘到临时位置。对所有 OSD 节点重复此步骤。
1. 使用 ceph-volume 命令列出数据分区：
  示例
  [ceph: root@host01 /]# ceph-volume lvm list
  
  Copy to Clipboard Toggle word wrap
2. 将数据分区挂载到临时位置：
  语法
  mount -t tmpfs tmpfs /var/lib/ceph/osd/ceph-$i
  
  Copy to Clipboard Toggle word wrap
3. 恢复 SELinux 上下文：
  语法
  for i in {OSD_ID}; do restorecon /var/lib/ceph/osd/ceph-$i; done
  
  Copy to Clipboard Toggle word wrap
  使用 OSD 节点上以空格分隔的 Ceph OSD ID 列表替换 OSD_ID。
4. 将所有者和组更改为 ceph:ceph ：
  语法
  for i in {OSD_ID}; do chown -R ceph:ceph /var/lib/ceph/osd/ceph-$i; done
  
  Copy to Clipboard Toggle word wrap
  使用 OSD 节点上以空格分隔的 Ceph OSD ID 列表替换 OSD_ID。
  重要
  由于一个程序错误会导致 update-mon-db 命令为 monitor 数据库使用额外的 db 和 db.slow 目录，因此您还必须复制这些目录。要做到这一点：
  准备容器外部的临时位置，以挂载和访问 OSD 数据库，并提取恢复 Ceph 监控所需的 OSD map：
  语法
  
  ceph-bluestore-tool --cluster=ceph prime-osd-dir --dev OSD-DATA --path /var/lib/ceph/osd/ceph-OSD-ID
  
  Copy to Clipboard Toggle word wrap
  
  将 OSD-DATA 替换为卷组(VG)或逻辑卷(LV)路径，并将 OSD-ID 替换为 OSD 的 ID。
  在 BlueStore 数据库和 block.db 之间创建一个符号链接：
  语法
  
  ln -snf BLUESTORE DATABASE /var/lib/ceph/osd/ceph-OSD-ID/block.db
  
  Copy to Clipboard Toggle word wrap
  
  将 BLUESTORE-DATABASE 替换为 BlueStore 数据库和 OSD-ID 的卷组(VG)或逻辑卷(LV)路径。

从具有损坏存储的 Ceph 监控节点使用以下命令：为所有节点上的所有 OSD 重复它们。

从所有 OSD 节点收集 cluster map：

示例

cd /root/
ms=/tmp/monstore/
db=/root/db/
db_slow=/root/db.slow/
mkdir $ms
for host in $osd_nodes; do

[root@host01 ~]# cd /root/
[root@host01 ~]# ms=/tmp/monstore/
[root@host01 ~]# db=/root/db/
[root@host01 ~]# db_slow=/root/db.slow/

[root@host01 ~]# mkdir $ms
[root@host01 ~]# for host in $osd_nodes; do
                echo "$host"
                rsync -avz $ms $host:$ms
                rsync -avz $db $host:$db
                rsync -avz $db_slow $host:$db_slow

                rm -rf $ms
                rm -rf $db
                rm -rf $db_slow

                sh -t $host <<EOF
                  for osd in /var/lib/ceph/osd/ceph-*; do
                    ceph-objectstore-tool --type bluestore --data-path \$osd --op update-mon-db --mon-store-path $ms

                   done
                EOF

                      rsync -avz $host:$ms $ms
                      rsync -avz $host:$db $db
                      rsync -avz $host:$db_slow $db_slow
                done

Copy to Clipboard

Toggle word wrap

设置适当的功能：

示例

[ceph: root@host01 /]# ceph-authtool /etc/ceph/ceph.client.admin.keyring -n mon. --cap mon 'allow *' --gen-key
[ceph: root@host01 /]# cat /etc/ceph/ceph.client.admin.keyring
  [mon.]
    key = AQCleqldWqm5IhAAgZQbEzoShkZV42RiQVffnA==
    caps mon = "allow *"
  [client.admin]
    key = AQCmAKld8J05KxAArOWeRAw63gAwwZO5o75ZNQ==
    auid = 0
    caps mds = "allow *"
    caps mgr = "allow *"
    caps mon = "allow *"
    caps osd = "allow *"

[ceph: root@host01 /]# ceph-authtool /etc/ceph/ceph.client.admin.keyring -n mon. --cap mon 'allow *' --gen-key
[ceph: root@host01 /]# cat /etc/ceph/ceph.client.admin.keyring
  [mon.]
    key = AQCleqldWqm5IhAAgZQbEzoShkZV42RiQVffnA==
    caps mon = "allow *"
  [client.admin]
    key = AQCmAKld8J05KxAArOWeRAw63gAwwZO5o75ZNQ==
    auid = 0
    caps mds = "allow *"
    caps mgr = "allow *"
    caps mon = "allow *"
    caps osd = "allow *"

Copy to Clipboard

Toggle word wrap

将所有 sst 文件从 db 和 db.slow 目录移动到临时位置：

示例

[ceph: root@host01 /]# mv /root/db/*.sst /root/db.slow/*.sst /tmp/monstore/store.db

[ceph: root@host01 /]# mv /root/db/*.sst /root/db.slow/*.sst /tmp/monstore/store.db

Copy to Clipboard

Toggle word wrap

从收集的 map 重建 monitor 存储：
示例
```
[ceph: root@host01 /]# ceph-monstore-tool /tmp/monstore rebuild -- --keyring /etc/ceph/ceph.client.admin
```
```
[ceph: root@host01 /]# ceph-monstore-tool /tmp/monstore rebuild -- --keyring /etc/ceph/ceph.client.admin
```
Copy to Clipboard Toggle word wrap
注意
使用此命令后，Ceph 身份验证数据库中仅存在从 OSD 提取的密钥环和 ceph-monstore-tool 命令行中指定的密钥环。您必须重新创建或导入所有其他密钥环，如客户端、Ceph 管理器和 Ceph 对象网关等，以便这些客户端可以访问集群。

备份损坏的存储。对所有 Ceph 监控节点重复此步骤：

语法

mv /var/lib/ceph/mon/ceph-HOSTNAME/store.db /var/lib/ceph/mon/ceph-HOSTNAME/store.db.corrupted

mv /var/lib/ceph/mon/ceph-HOSTNAME/store.db /var/lib/ceph/mon/ceph-HOSTNAME/store.db.corrupted

Copy to Clipboard

Toggle word wrap

使用 Ceph 监控节点的主机名替换 HOSTNAME。

替换损坏的存储。对所有 Ceph 监控节点重复此步骤：
语法
```
scp -r /tmp/monstore/store.db HOSTNAME:/var/lib/ceph/mon/ceph-HOSTNAME/
```
```
scp -r /tmp/monstore/store.db HOSTNAME:/var/lib/ceph/mon/ceph-HOSTNAME/
```
Copy to Clipboard Toggle word wrap
使用 monitor 节点的主机名替换 HOSTNAME。
更改新存储的所有者。对所有 Ceph 监控节点重复此步骤：
语法
```
chown -R ceph:ceph /var/lib/ceph/mon/ceph-HOSTNAME/store.db
```
```
chown -R ceph:ceph /var/lib/ceph/mon/ceph-HOSTNAME/store.db
```
Copy to Clipboard Toggle word wrap
使用 Ceph 监控节点的主机名替换 HOSTNAME。

卸载所有节点上所有临时挂载的 OSD：
示例
```
umount /var/lib/ceph/osd/ceph-*
```
```
[root@host01 ~]# umount /var/lib/ceph/osd/ceph-*
```
Copy to Clipboard Toggle word wrap

启动所有 Ceph 监控守护进程：

语法

systemctl start ceph-FSID@DAEMON_NAME

systemctl start ceph-FSID@DAEMON_NAME

Copy to Clipboard

Toggle word wrap

示例

systemctl start ceph-b404c440-9e4c-11ec-a28a-001a4a0001df@mon.host01.service

[root@mon ~]# systemctl start ceph-b404c440-9e4c-11ec-a28a-001a4a0001df@mon.host01.service

Copy to Clipboard

Toggle word wrap

确保 monitor 能够形成仲裁：
语法
```
ceph -s
```
```
ceph -s
```
Copy to Clipboard Toggle word wrap
使用 Ceph 监控节点的主机名替换 HOSTNAME。

导入 Ceph Manager 密钥环并启动所有 Ceph Manager 进程：

语法

ceph auth import -i /etc/ceph/ceph.mgr.HOSTNAME.keyring
systemctl start ceph-FSID@DAEMON_NAME

ceph auth import -i /etc/ceph/ceph.mgr.HOSTNAME.keyring
systemctl start ceph-FSID@DAEMON_NAME

Copy to Clipboard

Toggle word wrap

示例

systemctl start ceph-b341e254-b165-11ed-a564-ac1f6bb26e8c@mgr.extensa003.exrqql.service

[root@host01 ~]# systemctl start ceph-b341e254-b165-11ed-a564-ac1f6bb26e8c@mgr.extensa003.exrqql.service

Copy to Clipboard

Toggle word wrap

使用 Ceph 管理器节点的主机名替换 HOSTNAME。

启动所有 OSD 节点的所有 OSD 进程。对集群中的所有 OSD 重复：

语法

systemctl start ceph-FSID@osd.OSD_ID

systemctl start ceph-FSID@osd.OSD_ID

Copy to Clipboard

Toggle word wrap

示例

systemctl start ceph-b404c440-9e4c-11ec-a28a-001a4a0001df@osd.0.service

[root@host01 ~]# systemctl start ceph-b404c440-9e4c-11ec-a28a-001a4a0001df@osd.0.service

Copy to Clipboard

Toggle word wrap

确保 OSD 返回到服务：
示例
```
[ceph: root@host01 /]# ceph -s
```
```
[ceph: root@host01 /]# ceph -s
```
Copy to Clipboard Toggle word wrap

4.7. 恢复 Ceph 监控存储

4.7.1. 使用 BlueStore 时恢复 Ceph monitor 存储
复制链接

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

4.7. 恢复 Ceph 监控存储

4.7.1. 使用 BlueStore 时恢复 Ceph monitor 存储复制链接链接已复制到粘贴板!

学习

尝试、购买和销售

社区

关于红帽文档

让开源更具包容性

關於紅帽

Theme

Red Hat legal and privacy links

Red Hat legal and privacy links

4.7.1. 使用 BlueStore 时恢复 Ceph monitor 存储
复制链接