12.5. Cephadm ヘルスチェック
ストレージ管理者は、Cephadm モジュールによって提供される追加のヘルスチェックを使用して Red Hat Ceph Storage クラスターを監視できます。これは、ストレージクラスターによって提供されるデフォルトのヘルスチェックの補足です。
12.5.1. 前提条件
- 稼働中の Red Hat Ceph Storage クラスターがある。
12.5.2. Cephadm 操作のヘルスチェック
ヘルスチェックは、Cephadm モジュールがアクティブなときに実行されます。次のヘルス警告を受け取る場合があります。
CEPHADM_PAUSED
Cephadm のバックグラウンド作業は、ceph orch pause
コマンドで一時停止します。Cephadm は、ホストとデーモンの状態を確認するなどのパッシブ監視アクティビティーを実行し続けますが、デーモンのデプロイや削除などの変更は行いません。ceph orch resume
コマンドを使用して、Cephadm の作業を再開できます。
CEPHADM_STRAY_HOST
1 つ以上のホストが Ceph デーモンを実行していますが、Cephadm モジュールによって管理されるホストとして登録されていません。これは、これらのサービスが現在 Cephadm によって管理されていないことを意味します。たとえば、ceph orch ps
コマンドに含まれる再起動とアップグレードなどです。ceph orch host add HOST_NAME
コマンドを使用してホストを管理できますが、リモートホストへの SSH アクセスが設定されていることを確認してください。または、手動でホストに接続し、そのホスト上のサービスが削除または Cephadm によって管理されているホストに移行されるようにすることもできます。この警告は、設定 ceph config set mgr mgr/cephadm/warn_on_stray_hosts false
で無効にすることもできます。
CEPHADM_STRAY_DAEMON
1 つ以上の Ceph デーモンが動作中ですが、Cephadm モジュールによって管理されていません。これは、別のツールを使用してデプロイされたか、手動で開始されたためです。これらのサービスは、現在 Cephadm によって管理されていません。たとえば、ceph orch ps
コマンドに含まれる再起動とアップグレードなどです。
デーモンがモニターまたは OSD デーモンであるステートフルなデーモンである場合、これらのデーモンは Cephadm によって採用される必要があります。ステートレスデーモンの場合は、ceph orch apply
コマンドで新しいデーモンをプロビジョニングし、アンマネージデーモンを停止できます。
このヘルス警告は、設定 ceph config set mgr mgr/cephadm/warn_on_stray_daemons false
で無効にすることができます。
CEPHADM_HOST_CHECK_FAILED
1 つ以上のホストが基本的な Cephadm ホストチェックに失敗しています。name: value を検証します
- ホストは到達可能で、Cephadm を実行することができます。
- ホストは、Podman であるコンテナーランタイムの機能、時間同期の機能など、基本的な前提条件を満たしています。このテストが失敗した場合、Cephadm はそのホスト上のサービスを管理できません。
このチェックは、ceph cephadm check-host HOST_NAME
コマンドで手動で実行できます。壊れたホストを管理から削除するには、ceph orch host rm HOST_NAME
コマンドを使用します。このヘルス警告は、設定 ceph config set mgr mgr/cephadm/warn_on_failed_host_check false
で無効にすることができます。
12.5.3. Cephadm 設定のヘルスチェック
Cephadm は、OS、ディスク、および NIC の状態を把握するために、ストレージクラスター内の各ホストを定期的にスキャンします。これらの事実は、ストレージクラスター内のホスト全体の整合性について分析され、設定の異常を特定します。設定のチェックはオプション機能です。
この機能は、次のコマンドで有効にできます。
例
[ceph: root@host01 /]# ceph config set mgr mgr/cephadm/config_checks_enabled true
設定チェックは、各ホストスキャンの後にトリガーされます。このスキャンは 1 分間です。
ceph -W cephadm
コマンドは、現在の状態のログエントリーと設定チェックの結果を次のように表示します。無効な状態
例
ALL cephadm checks are disabled, use 'ceph config set mgr mgr/cephadm/config_checks_enabled true' to enable
有効な状態
例
CEPHADM 8/8 checks enabled and executed (0 bypassed, 0 disabled). No issues detected
設定チェック自体は、いくつかの
cephadm
サブコマンドによって管理されます。設定のチェックが有効になっているかどうかを確認するには、次のコマンドを実行します。
例
[ceph: root@host01 /]# ceph cephadm config-check status
このコマンドは、設定チェッカーのステータスを Enabled または Disabled のいずれかとして返します。
すべての設定チェックとその現在の状態をリスト表示するには、次のコマンドを実行します。
例
[ceph: root@host01 /]# ceph cephadm config-check ls NAME HEALTHCHECK STATUS DESCRIPTION kernel_security CEPHADM_CHECK_KERNEL_LSM enabled checks SELINUX/Apparmor profiles are consistent across cluster hosts os_subscription CEPHADM_CHECK_SUBSCRIPTION enabled checks subscription states are consistent for all cluster hosts public_network CEPHADM_CHECK_PUBLIC_MEMBERSHIP enabled check that all hosts have a NIC on the Ceph public_netork osd_mtu_size CEPHADM_CHECK_MTU enabled check that OSD hosts share a common MTU setting osd_linkspeed CEPHADM_CHECK_LINKSPEED enabled check that OSD hosts share a common linkspeed network_missing CEPHADM_CHECK_NETWORK_MISSING enabled checks that the cluster/public networks defined exist on the Ceph hosts ceph_release CEPHADM_CHECK_CEPH_RELEASE enabled check for Ceph version consistency - ceph daemons should be on the same release (unless upgrade is active) kernel_version CEPHADM_CHECK_KERNEL_VERSION enabled checks that the MAJ.MIN of the kernel on Ceph hosts is consistent
各設定チェックは、次のように記述されます。
CEPHADM_CHECK_KERNEL_LSM
ストレージクラスター内の各ホストは、同じ Linux セキュリティーモジュール (LSM) の状態で動作すると予想されます。たとえば、大半のホストが enforcing
モードの SELINUX で実行されている場合、このモードで実行されていないホストには異常フラグが付けられ、警告状態のヘルスチェックが発生します。
CEPHADM_CHECK_SUBSCRIPTION
このチェックは、ベンダーサブスクリプションのステータスに関連します。このチェックは、Red Hat Enterprise Linux を使用するホストに対してのみ実行されますが、パッチと更新が利用可能になるように、すべてのホストがアクティブなサブスクリプションの対象になっていることを確認するのに役立ちます。
CEPHADM_CHECK_PUBLIC_MEMBERSHIP
クラスターのすべてのメンバーは、少なくとも 1 つのパブリックネットワークサブネットに NIC を設定している必要があります。パブリックネットワーク上にないホストは、パフォーマンスに影響する可能性のあるルーティングに依存します。
CEPHADM_CHECK_MTU
OSD 上の NIC の最大伝送ユニット (MTU) は、一貫したパフォーマンスの重要な要素となります。このチェックでは、OSD サービスを実行しているホストを調べて、MTU がクラスター内で一貫して設定されていることを確認します。これは、大多数のホストが使用している MTU 設定を確立することによって決定し、異常があれば Ceph ヘルスチェックを行います。
CEPHADM_CHECK_LINKSPEED
MTU チェックと同様に、リンクスピードの整合性も、一貫したクラスターパフォーマンスの要因になります。このチェックは、OSD ホストの大部分で共有されるリンク速度を決定し、より低いリンク速度で設定されているホストのヘルスチェックを行います。
CEPHADM_CHECK_NETWORK_MISSING
public_network
および cluster_network
設定は、IPv4 および IPv6 のサブネット定義をサポートします。これらの設定がストレージクラスター内のどのホストにも見つからない場合は、ヘルスチェックが発生します。
CEPHADM_CHECK_CEPH_RELEASE
通常の操作では、Ceph クラスターは同じ Ceph リリースでデーモンを実行する必要があります (例: すべて Red Hat Ceph Storage クラスター 5 リリース)。このチェックは、各デーモンのアクティブなリリースを調べ、異常をヘルスチェックとして報告します。クラスター内でアップグレードプロセスがアクティブな場合、このチェックは省略されます。
CEPHADM_CHECK_KERNEL_VERSION
OS カーネルのバージョンの整合性が、全ホストでチェックされます。これまでと同様に、大多数のホストを異常特定のベースとして使用されます。