付録B Ceph クラスターの正常性メッセージ
Red Hat Ceph Storage クラスターが出力する可能性のある正常性メッセージには限りがあります。これらは、固有の識別子を持つヘルスチェックとして定義されています。識別子は、ツールが正常性チェックを理解し、その意味を反映する方法でそれらを提示できるようにすることを目的とした、簡潔な疑似人間可読文字列です。
正常性コード | 説明 |
---|---|
| すべてのデーモンで古いバージョンの Ceph が実行されている場合は警告します。複数のバージョンが検出された場合は、正常性エラーが発生します。 |
| 1 つまたは複数の Ceph Monitor デーモンが現在ダウンしています。 |
|
|
|
|
| 1 つまたは複数の Ceph Monitor のディスク領域が不足しています。 |
| 1 つまたは複数の Ceph Monitor のディスク領域が極端に少なくなっています。 |
| 1 つまたは複数の Ceph Monitor のデータベースサイズが非常に大きくなっています。 |
|
Ceph Monitor への再接続時に |
|
Ceph は現在、 |
正常性コード | 説明 |
---|---|
| すべての Ceph Manager デーモンは現在ダウンしています。 |
| 有効な Ceph Manager モジュールが依存関係のチェックに失敗しています。 |
| Ceph Manager モジュールに予期せぬエラーが発生しました。通常、これは、モジュールのサーブ関数から未処理の例外が発生したことを意味します。 |
正常性コード | 説明 |
---|---|
| 1 つまたは複数の OSD がダウンとマークされています。 |
| 特定の CRUSH サブツリー内のすべての OSD が down とマークされています。たとえば、あるホスト上のすべての OSD が down とマークされます。たとえば、OSD_HOST_DOWN および OSD_ROOT_DOWN です。 |
|
CRUSH マップの階層で OSD が参照されていますが、存在していません。 |
|
nearfull、backfillfull、full、または failsafefull の使用率のしきい値は昇順ではありません。 |
|
1 つ以上の OSD が完全なしきい値を超えており、ストレージクラスターが書き込みを処理できないようになっています。わずかなマージン |
| 1 つ以上の OSD が backfillfull しきい値を超えたため、データをこのデバイスにリバランスできなくなります。 |
| 1 つまたは複数の OSD が nearfull の閾値を超えました。 |
|
1 つまたは複数のストレージクラスターフラグが設定されています。これらのフラグには、full、pauserd、pausewr、noup、nodown、noin、noout、nobackfill、norecover、norebalance、noscrub、nodeep_scrub、および notieragent が含まれます。full 以外は、 |
| 1 つ以上の OSD または CRUSH に対象のフラグが設定されています。これらのフラグには、noup、nodown、noin、および noout があります。 |
| CRUSH マップは非常に古い設定を使用しているため、更新する必要があります。 |
|
CRUSH マップでは、 |
|
1 つ以上のキャッシュプールは、使用率を追跡するためのヒットセットで設定されていません。これにより、階層化エージェントがコールドオブジェクトを識別してフラッシュし、キャッシュから削除することができなくなります。 |
|
|
|
1 つまたは複数のプールがクォータに達し、書き込みを許可しなくなりました。 |
|
BlueStore バックエンドを使用する 1 つ以上の OSD には db パーティションが割り当てられていますが、その領域が満杯になっているため、メタデータが通常の低速デバイスに “あふれ出て” います。 |
| この出力では、BDEV_DB free、BDEV_SLOW free、および available_from_bluestore の 3 つの値が得られます。 |
|
BlueStore File System (BlueFS) の空き容量が少なく、 |
| BlueStore が動作すると、基盤となるストレージの空き領域が断片化されます。これは正常なことであり、避けられないことですが、過度のフラグメント化は速度低下の原因となります。 |
|
BlueStore は、プールごとの詳細ベースで内部使用統計を追跡し、1 つ以上の OSD に BlueStore ボリュームがあります。 |
|
BlueStore では、プールごとの omap 領域の使用状況を追跡しています。 |
|
BlueStore では、PG による omap 領域の利用状況を把握しています。 |
| BlueStore を使用している 1 つまたは複数の OSD で、物理デバイスのサイズとそのサイズを追跡するメタデータの間に内部不整合があります。 |
|
1 つまたは複数の OSD が、BlueStore 圧縮プラグインを読み込むことができません。これは、 |
| BlueStore を使用する 1 つ以上の OSD が、メインデバイスで誤った読み取りエラーを検出します。BlueStore はこれらのエラーに対して、ディスクの読み取りを再試行することで回復しました。 |
正常性コード | 説明 |
---|---|
|
1 つ以上のデバイスが近日中に故障することが予想され、警告のしきい値が |
|
1 つ以上のデバイスがまもなく故障すると予想され |
|
すぐに障害が発生するデバイスが多すぎると予想され、 |
正常性コード | 説明 |
---|---|
| データの可用性が低下します。つまり、ストレージクラスター内の一部のデータに対する潜在的な読み取りまたは書き込み要求に対応できなくなります。 |
| 一部のデータでデータの冗長性が低下します。これは、複製プールやイレイジャーコードフラグメントについて、ストレージクラスターに必要な数の複製がないことを意味します。 |
|
ストレージクラスターの空き領域が不足しているため、データの冗長性が低下するか、一部のデータのリスクにさらされる可能性があります。具体的には、1 つ以上の PG に |
|
ストレージクラスターの空き領域が不足しているため、データの冗長性が低下するか、一部のデータのリスクにさらされる可能性があります。具体的には、1 つ以上の PG に |
|
データスクラビングにより、ストレージクラスター内のデータの整合性に関するいくつかの問題が発見されました。具体的には、1 つ以上の PG で不整合フラグまたは |
| 最近の OSD のスクラブでは、矛盾点が明らかになりました。 |
| 読み取りエラーが発生し、別のレプリカが利用可能な場合は、そのレプリカを使用してエラーを直ちに修復し、クライアントがオブジェクトデータを取得できるようにします。 |
|
|
|
キャッシュ層のプールがほぼ満杯です。 |
|
ストレージクラスターで使用されている PG の数が、OSD ごとの |
|
1 つ以上のプールの |
|
プールに現在保存されているデータの量に基づいて、1 つ以上のプールにおそらくより多くの PG が必要です。 |
|
ストレージクラスターで使用されている PG の数が、OSD ごとの |
|
プールに現在保存されているデータの量に基づいて、1 つ以上のプールにおそらくより多くの PG が必要です。 |
|
1 つまたは複数のプールに、プールの予想サイズを推定するための |
|
1 つ以上のプールに |
|
ストレージクラスター内の OSD 数が、設定可能なしきい値である |
|
1 つまたは複数のプールの |
|
1 つ以上のプールには、PG ごとのオブジェクトの平均数があり、ストレージクラスター全体の平均よりもはるかに高くなっています。具体的なしきい値は、 |
|
1 つまたは複数のオブジェクトを含むプールが存在しますが、特定のアプリケーションで使用するためのタグが付けられていません。この警告を解決するには、 |
|
1 つ以上のプールがクォーターに達しています。このエラー状態を引き起こすための閾値は、 |
|
1 つまたは複数のプールが、設定された満杯のしきい値に近づいています。 |
| ストレージクラスターの 1 つまたは複数のオブジェクトが、ストレージクラスターが保存したいノードに保存されていません。これは、最近行われたストレージクラスターの変更によるデータの移行が完了していないことを示しています。 |
| ストレージクラスター内に 1 つ以上のオブジェクトが見つかりません。具体的には、OSD はオブジェクトの新しいコピーまたは更新されたコピーが存在する必要があることを認識していますが、そのバージョンのオブジェクトのコピーが現在オンラインの OSD で見つかりません。 |
| 1 つ以上の OSD またはモニター要求の処理に長い時間がかかっている。これは、極端な負荷、遅いストレージデバイス、またはソフトウェアのバグを示している可能性があります。 |
|
1 つ以上の PG が最近スクラブされていません。PG は通常、 |
|
1 つ以上の PG が最近ディープスクラビングされていません。 |
| 1 つまたは複数の PG のスナップショットトリムキューが、設定された警告しきい値を超えました。これは、非常に多くのスナップショットが最近削除されたか、OSD が新しいスナップショットの削除率に追いつくのに十分な速さでスナップショットをトリミングできないことを示しています。 |
正常性コード | 説明 |
---|---|
| 1 つ以上の Ceph デーモンが最近クラッシュしましたが、そのクラッシュは管理者によってまだ確認されていません。 |
| テレメトリーが有効になっていますが、その時点からテレメトリーレポートの内容が変更されているため、テレメトリーレポートは送信されません。 |
|
1 つまたは複数の認証ユーザーに、モニターが解析できない機能があります。 |
|
|
|
ダッシュボードのデバッグモードが有効になっています。つまり、REST API 要求の処理中にエラーが発生した場合、HTTP エラーレスポンスには Python のトレースバックが含まれています。 |