7.8. 恢复 grafana-server 和 Prometheus
grafana-server 包括 Grafana UI、Prometheus、容器和 Red Hat Ceph Storage 配置。当 grafana-server 崩溃或有故障时,您可以通过备份文件并使用备份的文件恢复它。对于 Prometheus,您可以进行外部备份,然后恢复数据。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
- 对 Grafana 节点进行根级访问。
流程
恢复 Grafana 数据库:
在 grafana-server 节点上,停止 Grafana 服务:
示例
[root@node04 ~]# systemctl stop grafana-server.service [root@node04 ~]# systemctl status grafana-server.service
恢复 Grafana 数据库:
示例
[root@node04 ~]# cp /var/lib/grafana/grafana.db /var/lib/grafana/grafana_backup.db
在 grafana-server 节点上,重启 Grafana 服务:
示例
[root@node04 ~]# systemctl restart grafana-server.service
恢复 grafana-server:
在 grafana-server 节点上,如果 Grafana 服务处于运行状态,停止该服务:
示例
[root@node04 ~]# systemctl stop grafana-server.service [root@node04 ~]# systemctl status grafana-server.service
将支持的
grafana.db
文件移动到/var/lib/grafana/
目录中:示例
[root@node04 ~]# mv /var/lib/grafana/grafana_backup.db /var/lib/grafana/
在 grafana-server 节点上,重启 Grafana 服务:
示例
[root@node04 ~]# systemctl restart grafana-server.service
对于 Prometheus 警报,您必须提取
prometheus_data_dir
目录的外部备份,即 Ceph-Ansible 设置,默认为var/lib/prometheus
目录,并使用备份的目录恢复该服务。在 grafana-server 节点上,停止 Prometheus 服务:
示例
[root@node04 ~]# systemctl stop prometheus.service [root@node04 ~]# systemctl status prometheus.service
备份默认 Prometheus 目录:
示例
[root@node04 ~]# cp /var/lib/prometheus/ /var/lib/prometheus_backup/
将
prometheus_data_dir
目录替换为支持的目录:示例
[root@node04 ~]# mv /var/lib/prometheus_backup/ /var/lib/prometheus_data_dir
在 grafana-server 节点上,重启 prometheus 服务:
示例
[root@node04 ~]# systemctl restart prometheus.service [root@node04 ~]# systemctl status prometheus.service
注意如果您更改了
group_vars/all.yml
文件中的 Prometheus 参数,则必须重新运行 playbook。
可选:如果更改没有反映在 Red Hat Ceph Storage 仪表板中,则必须禁用并启用仪表板:
示例
[root@node04 ~]# ceph mgr module disable dashboard [root@node04 ~]# ceph mgr module enable dashboard