16.2. Cephadm 配置健康检查
Cephadm 定期扫描存储集群中的每个主机,以了解操作系统、磁盘和 NIC 的状态。这些事实分析为存储集群中主机的一致性,以识别任何配置。配置检查是一个可选功能。
您可以使用以下命令启用此功能:
示例
[ceph: root@host01 /]# ceph config set mgr mgr/cephadm/config_checks_enabled true
配置检查会在每个主机扫描后触发,这是一分钟的持续时间。
ceph -W cephadm
命令显示配置检查的当前状态和结果,如下所示:禁用状态
示例
ALL cephadm checks are disabled, use 'ceph config set mgr mgr/cephadm/config_checks_enabled true' to enable
启用状态
示例
CEPHADM 8/8 checks enabled and executed (0 bypassed, 0 disabled). No issues detected
配置检查本身通过多个
cephadm
子命令进行管理。要确定配置检查是否已启用,请运行以下命令:
示例
[ceph: root@host01 /]# ceph cephadm config-check status
此命令将配置检查器的状态返回为 Enabled 或 Disabled。
要列出所有配置检查及其状态,请运行以下命令:
示例
[ceph: root@host01 /]# ceph cephadm config-check ls NAME HEALTHCHECK STATUS DESCRIPTION kernel_security CEPHADM_CHECK_KERNEL_LSM enabled checks SELINUX/Apparmor profiles are consistent across cluster hosts os_subscription CEPHADM_CHECK_SUBSCRIPTION enabled checks subscription states are consistent for all cluster hosts public_network CEPHADM_CHECK_PUBLIC_MEMBERSHIP enabled check that all hosts have a NIC on the Ceph public_netork osd_mtu_size CEPHADM_CHECK_MTU enabled check that OSD hosts share a common MTU setting osd_linkspeed CEPHADM_CHECK_LINKSPEED enabled check that OSD hosts share a common linkspeed network_missing CEPHADM_CHECK_NETWORK_MISSING enabled checks that the cluster/public networks defined exist on the Ceph hosts ceph_release CEPHADM_CHECK_CEPH_RELEASE enabled check for Ceph version consistency - ceph daemons should be on the same release (unless upgrade is active) kernel_version CEPHADM_CHECK_KERNEL_VERSION enabled checks that the MAJ.MIN of the kernel on Ceph hosts is consistent
每个配置检查都如下所述:
CEPHADM_CHECK_KERNEL_LSM
存储集群中的每个主机都应该在相同的 Linux 安全模块 (LSM) 状态中运行。例如,如果大多数主机以 enforcing
模式使用 SELINUX 运行,则任何没有在这个模式下运行的主机都将标记为 anomaly,并且会引发警告状态的健康检查。
CEPHADM_CHECK_SUBSCRIPTION
此检查与供应商订阅的状态相关。此检查只针对使用 Red Hat Enterprise Linux 的主机执行,但有助于确认通过有效订阅涵盖所有主机,以便补丁和更新可用。
CEPHADM_CHECK_PUBLIC_MEMBERSHIP
集群的所有成员都应该在至少一个公共网络子网上配置了 NIC。没有处于公共网络上的主机将会依赖于路由,这可能会影响性能。
CEPHADM_CHECK_MTU
OSD 上 NIC 的最大传输单元(MTU)可以是一致性能的关键因素。此检查会检查正在运行 OSD 服务的主机,以确保在集群中 MTU 的配置是一致的。这通过建立大多数主机正在使用的 MTU 设置来确定,任何异常情况会导致 Ceph 健康检查。
CEPHADM_CHECK_LINKSPEED
与 MTU 检查类似,链路速度一致性也是集群性能的一个因素。此检查决定了大多数 OSD 主机共享的链路速度,从而对以较低链接速度设置的主机进行健康检查。
CEPHADM_CHECK_NETWORK_MISSING
public_network
和 cluster_network
设置支持 IPv4 和 IPv6 的子网定义。如果在存储集群的任何主机上找不到这些设置,则会引发健康检查。
CEPHADM_CHECK_CEPH_RELEASE
在正常操作下,Ceph 集群应在相同的 Ceph 发行版本中运行守护进程,如所有 Red Hat Ceph Storage 集群 5 版本。此检查将查看每个守护进程的活动发行版本,并报告任何异常情况作为健康检查。如果升级过程在集群内处于活跃状态,则会绕过这个检查。
CEPHADM_CHECK_KERNEL_VERSION
检查 OS 内核版本以获得主机之间的一致性。再次使用大多数主机来识别异常情况。