5.6. 使用 Ceph 管理器 crash 模块
通过使用 Ceph 管理器 crash 模块,您可以收集有关守护进程 crashdumps 的信息,并将其存储在 Red Hat Ceph Storage 集群中,以便进一步分析。
默认情况下,守护进程崩溃转储在 /var/lib/ceph/crash
中转储。您可以使用选项 crash dir
进行配置。崩溃目录按时间、日期和随机生成的 UUID 命名,包含元数据文件 meta
和最新的日志文件,其 crash_id
相同。
您可以使用 ceph-crash.service
自动提交这些崩溃,并在 Ceph 监控器中保留。ceph-crash.service
监视 crashdump
目录,并使用 ceph crash post
上传它们。
RECENT_CRASH heath 消息是 Ceph 集群中最常见的运行状况消息之一。此健康消息表示,一个或多个 Ceph 守护进程最近崩溃,且崩溃尚未存档或被管理员确认。这可能表示软件错误、硬件问题(如磁盘失败)或其它问题。选项 mgr/crash/warn_recent_interval
控制最近一次表示的时间周期,默认为两周。您可以运行以下命令来禁用警告:
示例
[ceph: root@host01 /]# ceph config set mgr/crash/warn_recent_interval 0
[ceph: root@host01 /]# ceph config set mgr/crash/warn_recent_interval 0
选项 mgr/crash/retain_interval
控制您要保留崩溃报告的周期,然后再自动清除崩溃报告。这个选项的默认值是一年。
先决条件
- 一个正在运行的 Red Hat Ceph Storage 集群。
流程
确定启用了 crash 模块:
示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 保存崩溃转储:元数据文件是存储在 crash dir 中作为
meta
的 JSON blob。您可以调用 ceph 命令-i -
选项,该选项会从 stdin 读取。示例
[ceph: root@host01 /]# ceph crash post -i meta
[ceph: root@host01 /]# ceph crash post -i meta
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 列出所有新的以及归档的崩溃信息的时间戳或 UUID 崩溃 ID:
示例
[ceph: root@host01 /]# ceph crash ls
[ceph: root@host01 /]# ceph crash ls
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 列出所有新崩溃信息的时间戳或 UUID 崩溃 ID:
示例
[ceph: root@host01 /]# ceph crash ls-new
[ceph: root@host01 /]# ceph crash ls-new
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 列出所有新崩溃信息的时间戳或 UUID 崩溃 ID:
示例
[ceph: root@host01 /]# ceph crash ls-new
[ceph: root@host01 /]# ceph crash ls-new
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 列出按年龄分组的保存崩溃信息的摘要:
示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 查看保存崩溃的详情:
语法
ceph crash info CRASH_ID
ceph crash info CRASH_ID
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 删除比 KEEP days 旧的已保存的崩溃:其中 KEEP 必须是一个整数。
语法
ceph crash prune KEEP
ceph crash prune KEEP
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
[ceph: root@host01 /]# ceph crash prune 60
[ceph: root@host01 /]# ceph crash prune 60
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 对崩溃报告进行归档,使其不再被视为
RECENT_CRASH
健康检查,且不会出现在crash ls-new
输出中。它会出现在crash ls
中。语法
ceph crash archive CRASH_ID
ceph crash archive CRASH_ID
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
[ceph: root@host01 /]# ceph crash archive 2022-05-24T19:58:42.549073Z_b2382865-ea89-4be2-b46f-9a59af7b7a2d
[ceph: root@host01 /]# ceph crash archive 2022-05-24T19:58:42.549073Z_b2382865-ea89-4be2-b46f-9a59af7b7a2d
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 记录所有崩溃报告:
示例
[ceph: root@host01 /]# ceph crash archive-all
[ceph: root@host01 /]# ceph crash archive-all
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 删除崩溃转储:
语法
ceph crash rm CRASH_ID
ceph crash rm CRASH_ID
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 示例
[ceph: root@host01 /]# ceph crash rm 2022-05-24T19:58:42.549073Z_b2382865-ea89-4be2-b46f-9a59af7b7a2d
[ceph: root@host01 /]# ceph crash rm 2022-05-24T19:58:42.549073Z_b2382865-ea89-4be2-b46f-9a59af7b7a2d
Copy to Clipboard Copied! Toggle word wrap Toggle overflow