Monitoring OpenShift Data Foundation
クラスターの健全性、メトリクス、またはアラートの設定の表示
概要
多様性を受け入れるオープンソースの強化
Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。まずは、マスター (master)、スレーブ (slave)、ブラックリスト (blacklist)、ホワイトリスト (whitelist) の 4 つの用語の置き換えから始めます。この取り組みは膨大な作業を要するため、今後の複数のリリースで段階的に用語の置き換えを実施して参ります。詳細は、Red Hat CTO である Chris Wright のメッセージ をご覧ください。
Red Hat ドキュメントへのフィードバック (英語のみ)
弊社のドキュメントについてのご意見をお聞かせください。ドキュメントの改善点があれば、ぜひお知らせください。
フィードバックを送信するには、Bugzilla チケットを作成します。
- Bugzilla の Web サイトに移動します。
- Component セクションで、documentation を選択します。
- Description フィールドに、ドキュメントの改善に向けたご提案を記入してください。ドキュメントの該当部分へのリンクも追加してください。
- Submit Bug をクリックします。
第1章 クラスターの正常性
1.1. OpenShift Data Foundation の正常性の確認
ストレージの正常性は、Block および File、および Object ダッシュボードに表示されます。
手順
- OpenShift Web コンソールで、Storage → Data Foundation をクリックします。
- Overview タブの Status カードで Storage System をクリックし、表示されたポップアップからストレージシステムリンクをクリックします。
Status カードに Block および File および Object タブに緑色のチェックマークが付いているかどうかを確認します。
緑色のチェックマークは、クラスターが正常であることを示します。
表示される異なるヘルス状態およびアラートについての詳細は、「ストレージの正常性レベルおよびクラスターの状態」 を参照してください。
1.2. ストレージの正常性レベルおよびクラスターの状態
OpenShift Data Foundation に関連するステータス情報およびアラートがストレージダッシュボードに表示されます。
1.2.1. Data Foundation ダッシュボードのインジケーター
Block and File ダッシュボードには、OpenShift Data Foundation 全体の状態が永続ボリュームの状態と共に表示されます。
各リソースタイプの状態の種類については、以下の表に一覧表示されています。
状態 | アイコン | 説明 |
---|---|---|
UNKNOWN |
| OpenShift Data Foundation はデプロイされていないか、利用できません。 |
緑色のチェックマーク |
| クラスターの状態は正常です。 |
Warning |
| OpenShift Data Foundation クラスターが警告状態にあります。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。 |
Error |
| OpenShift Data Foundation クラスターでエラーが発生し、一部のコンポーネントが機能しなくなります。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。 |
1.2.2. Object ダッシュボードのインジケーター
Object ダッシュボードには、Multi-Cloud Object Gateway およびクラスター内のオブジェクト要求の状態が表示されます。
各リソースタイプの状態の種類については、以下の表に一覧表示されています。
状態 | 説明 |
---|---|
緑色のチェックマーク | オブジェクトストレージは正常です。 |
Multicloud Object Gateway is not running | NooBaa システムが見つからない場合に表示されます。 |
All resources are unhealthy | すべての NooBaa プールが正常でない場合に表示されます。 |
Many buckets have issues | バケットの 50% 以上でエラーが発生する場合に表示されます。 |
Some buckets have issues | バケットの 30% 以上でエラーが発生する場合に表示されます。 |
Unavailable | ネットワークの問題やエラーがある場合に表示されます。 |
1.2.3. Alert パネル
Alert パネルは、クラスターの状態が正常ではない場合に、Block and File ダッシュボードと Object ダッシュボードの両方の Status カードの下に表示されます。
特定のアラートおよびそれらに応答する方法についての情報は、OpenShift Data Foundation のトラブルシューティング を参照してください。
第2章 メトリクス
2.1. Block および File ダッシュボードでのメトリクス
以下のように、OpenShift Web コンソールで Block および File ダッシュボードに移動できます。
- Storage → Data Foundation をクリックします。
- Overview タブの Status カードで Storage System をクリックし、表示されたポップアップからストレージシステムリンクをクリックします。
- Block and File タブをクリックします。
Block および File ダッシュボードの以下のカードは、デプロイメントモード (内部または外部) をベースとするメトリクスを提供します。
- Details カード
Details カードには、以下が表示されます。
- サービス名
- Cluster name
-
システムが実行されるプロバイダーの名前 (例: ベアメタルの場合は
AWS
、VSphere
、None
) - モード (内部または外部のいずれかのデプロイメントモード)
- OpenShift Data Foundation Operator バージョン
- Inventory カード
- Inventory カードには、OpenShift Data Foundation プロビジョナーでサポートされるアクティブなノード、PVC、および PV の数が表示されます。カードの左側に、ストレージノード、PVC および PV の合計数が表示されます。カードの右側には、Not Ready 状態のストレージノードの数が表示されますが、Pending 状態の PVC と Released 状態の PV の数が表示されます。
外部モードでは、OpenShift Data Foundation に専用ノードはないため、ノードの数はデフォルトで 0 になります。
- Status カード
このカードは、クラスターがエラーなしで稼働しているか、何らかの問題があるかを示します。
内部モードの場合、Data Resiliency (データ回復性) は、レプリカ全体での Ceph のデータリバランスのステータスを示します。内部モードのクラスターが警告またはエラー状態にあると、Alerts セクションが関連するアラートと共に表示されます。
外部モードの場合、Data Resiliency (データ回復性) およびアラートは表示されません。
- Raw Capacity カード
このカードには、クラスター上のレプリケーションを含む RAW ストレージ容量の合計が表示されます。
-
Used
レジェンドは、クラスター上で使用されている RAW ストレージ容量を示します。 -
Available
レジェンドは、クラスターで利用可能な Raw ストレージ容量を示します。
-
このカードは、外部モードクラスターには適用されません。
- Used Capacity Breakdown カード
このカードには、クラスターに保存されているレプリカ以外の実際のデータ量とそのディストリビューションが表示されます。カードの上部にあるドロップダウンメニューから、Projects、 Storage Classes および Pods のいずれかを選択できます。これらのオプションは、グラフに表示されるデータをフィルターするために使用します。グラフには、使用状況に基づいて上位 5 つのエンティティーのみに使用される容量が表示されます。残りのエンティティーの集約使用量が Other として表示されます。
オプション 表示 プロジェクト
Data Foundation ストレージを使用している各プロジェクトの集約された容量と現在使用されている量。
ストレージクラス
OpenShift Data Foundation ベースのストレージクラスに基づいて集約容量を表示します。
Pod
OpenShift Data Foundation プロビジョナーでサポートされる PVC の使用を試行するすべての Pod。
外部モードについては、Capacity breakdown カード を参照してください。
- Capacity breakdown カード
- このカードは、外部モードクラスターにのみ適用されます。このカードでは、プロジェクト、ストレージクラス、Pod ごとの容量の内訳を表示できます。カードの上部にあるドロップダウンメニューから、Projects、 Storage Classes および Pods のいずれかを選択できます。これらのオプションは、グラフに表示されるデータをフィルターするために使用します。グラフには、使用状況に基づいて上位 5 つのエンティティーのみに使用される容量が表示されます。残りのエンティティーの集約使用量が Other として表示されます。
- Utilization カード
このカードには、使用済みの容量、1 秒あたりの入出力操作、レイテンシー、スループット、および内部モードのクラスターのリカバリー情報が表示されます。
外部モードでは、このカードには、そのクラスターの使用済みおよび要求される容量情報のみが表示されます。
- Storage Efficiency カード
- このカードは、すべての圧縮可能なプールを含む、圧縮可能なデータの有効性のメトリクスを示す圧縮率を示しています。また、圧縮対応プールおよび関連付けられたレプリカすべてに含まれる実際のディスク容量を表す節約メトリクスも示しています。
- アクティビティーカード
このカードは、OpenShift Data Foundation クラスターで発生しているアクティビティーや、最近発生したアクティビティーが表示されます。カードは 2 つのセクションに分かれます。
- Ongoing: データ回復性および OpenShift Data Foundation Operator のアップグレードに関連する継続中のアクティビティーの進捗を表示します。
-
Recent Events:
openshift-storage
namespace で発生するイベントの一覧を表示します。
2.2. Object ダッシュボードでのメトリクス
以下のように、OpenShift Web コンソールで Object ダッシュボードに移動できます。
- Storage → Data Foundation をクリックします。
- Overview タブの Status カードで Storage System をクリックし、表示されたポップアップからストレージシステムリンクをクリックします。
- Object タブをクリックします。
以下のメトリクスは、Object ダッシュボードで利用できます。
- Details カード
このカードには、以下の情報が表示されます。
- Service Name: Multicloud Object Gateway (MCG) サービス名。
- System Name: Multicloud Object Gateway および RADOS Object Gateway のシステム名。Multicloud Object Gateway のシステム名は MCG 管理ユーザーインターフェイスへのハイパーリンクでもあります。
-
Provider: システムが実行されるプロバイダーの名前 (例: ベアメタルの場合は
AWS
、VSphere
、None
) - Version: OpenShift Data Foundation Operator バージョン
- Storage Efficiency カード
- このカードでは、MCG が重複排除と圧縮によりストレージバックエンドリソース消費をどのように最適化するかを確認し、ベアメタルとクラウドベースのストレージの容量およびクラウドベースのストレージの egress に基づいて計算される効率性比率 (アプリケーションデータと論理データの比較) と、予測された節約の数値 (MCG がストレージプロバイダーに送信しなかったバイト数) が表示されます。
- Buckets カード
バケットは、アプリケーションの代わりにデータを保存するために MCG および RADOS Object Gateway が管理するコンテナーです。これらのバケットは、Object Bucket Claim (オブジェクトバケット要求、OBC) を使用して作成され、アクセスされます。特定のポリシーをバケットに適用して、データの配置、データのスピルオーバー、データの回復性、容量のクォータなどをカスタマイズできます。
このカードでは、オブジェクトバケット (OB) および Object Bucket Claim (オブジェクトバケット要求、OBC) に関する情報が個別に表示されます。OB には、S3 またはユーザーインターフェイス (UI) を使用して作成されたすべてのバケットと、OBC には YAML またはコマンドラインインターフェイス (CLI) を使用して作成されたすべてのバケットが含まれます。バケットタイプの左側に表示される数は、OB または OBC の合計数です。右側に表示される数字はエラー数であり、エラー数がゼロよりも大きい場合にのみ表示されます。数字をクリックすると、警告またはエラーステータスのあるバケットの一覧を表示できます。
- Resource Providers カード
- このカードには、現在使用中のすべての Multicloud Object Gateway (MCG) および RADOS Object Gateway リソースの一覧が表示されます。これらのリソースは、バケットポリシーに従ってデータを保存するために使用されます。これらはクラウドベースのリソースまたはベアメタルリソースになります。
- Status カード
このカードは、システムとそのサービスが問題なく実行されているかどうかを示します。システムが警告またはエラー状態にあると、Alerts セクションが表示され、関連するアラートが表示されます。問題に関する詳細情報については、各アラートの横にあるアラートリンクをクリックしてください。ヘルスチェックに関する情報は、クラスターの正常性 を参照してください。
複数のオブジェクトストレージサービスがクラスターで利用可能な場合は、サービスタイプ (Object Service または Data Resiliency など) をクリックして個々のサービスの状態を表示します。
このステータスカードの Data Resiliency (データ回復性) では、Multicloud Object Gateway および RADOS Object Gateway で保存されたデータに関して回復性の問題があるかどうかが分かります。
- Capacity breakdown カード
- このカードでは、アプリケーションが Multicloud Object Gateway および RADOS Object Gateway でオブジェクトストレージをどのように消費するかを視覚化できます。Service Type ドロップダウンを使用して、Multicloud Gateway および Object Gateway の容量の内訳を個別に表示できます。Multicloud Object Gateway を表示する場合、Break By ドロップダウンを使用して、グラフ内で Projects または Bucket Class 別に結果をフィルタリングできます。
- Performance カード
このカードでは、Multicloud Object Gateway または RADOS Object Gateway のパフォーマンスを表示できます。Service Type ドロップダウンを使用して、表示するサービスタイプを選択します。
Multicloud Object Gateway アカウントの場合は、I/O 操作と論理的に使用される容量を表示できます。プロバイダーの場合、I/O 操作、物理的および論理的な使用量、および egress を表示できます。
以下の表は、カードの上部にあるドロップダウンメニューからの選択に応じて表示される各種のメトリクスを示しています。
表2.1 Multicloud Object Gateway のインジケーター コンシューマータイプ メトリクス チャートの表示 アカウント
I/O 操作
上位 5 コンシューマーの読み取りおよび書き込み I/O 操作を表示します。すべてのコンシューマーの読み取りおよび書き込みの合計は下部に表示されます。この情報は、アプリケーションまたはアカウントごとにスループット要求 (IOPS) をモニターするのに役立ちます。
アカウント
論理的な使用容量
上位 5 コンシューマーの各アカウントの論理的な使用量の合計を表示します。これは、アプリケーションまたはアカウントごとのスループット需要をモニターするのに役立ちます。
プロバイダー
I/O 操作
プロバイダーがホストするストレージバックエンドにアクセスする際に MCG が生成する I/O 操作の数を表示します。これはクラウド内のトラフィックを把握するのに役立ち、I/O パターンに従ってリソース割り当てを改善することができるため、コストの最適化に役立ちます。
プロバイダー
物理的な使用量 vs 論理的な使用量
プロバイダーごとに物理的な使用量と論理的な使用量を比較して、システム内のデータ消費を表示します。これにより、ストレージリソースを制御し、使用状況の特性やパフォーマンス要件に基づいて配置ストラテジーを立てることができ、これによりコストを最適化できる可能性もあります。
プロバイダー
Egress
各プロバイダーから MCG が取得するデータ量 (アプリケーションに関連する読み取りの帯域幅)。これにより、egress パターンに基づいてリソースの割り当てを改善するためにクラウド内のトラフィックを把握し、コストを最適化することができます。
RADOS Object Gateway では、Metric ドロップダウンを使用して Latency または Bandwidth を表示できます。
- Latency: RADOS Object Gateway インスタンス全体の GET/PUT のレイテンシーの平均的な差異を視覚的に表示します。
- Bandwidth: RADOS Object Gateway インスタンス間の GET/PUT 帯域幅の合計を視覚的に表示します。
- アクティビティーカード
このカードは、OpenShift Data Foundation クラスターで発生しているアクティビティーや、最近発生したアクティビティーが表示されます。カードは 2 つのセクションに分かれます。
- Ongoing: データ回復性および OpenShift Data Foundation Operator のアップグレードに関連する継続中のアクティビティーの進捗を表示します。
-
Recent Events:
openshift-storage
namespace で発生するイベントの一覧を表示します。
2.3. プールメトリクス
プールメトリクスダッシュボードは、データ消費を効率的に確保するための情報を提供します。また、圧縮を有効/無効にする方法を提供します。
プールメトリクスの表示
プールリストを表示するには、以下を実行します。
- Storage → Data Foundation をクリックします。
- Storage systems タブでストレージシステムを選択し、BlockPools をクリックします。
プール名をクリックすると、各プールダッシュボードの以下のカードがデプロイメントモード (内部または外部) に基づいてメトリクスと共に表示されます。
- Details カード
Details カードには、以下が表示されます。
- プール名
- ボリュームタイプ
- レプリカ
- Status カード
- このカードは、プールがエラーなしで稼働しているか、何らかの問題があるかを示します。
- Mirroring カード
ミラーリングオプションを有効にすると、このカードにはミラーリングのステータス、イメージの正常性、および最後にチェックされたタイムスタンプが表示されます。ミラーリングメトリクスは、クラスターレベルのミラーリングが有効な場合に表示されます。メトリクスは、障害復旧の失敗を回避し、データがそのまま保持されるように不一致を通知するのに役立ちます。
ミラーリングカードには、以下のような高レベルの情報が表示されます。
- 特定のプールに対して enabled または disabled のいずれかとミラーリングの状態。
- プール下のすべてのイメージのステータスが正常に複製されるかどうか。
- 複製されているイメージと複製されていないイメージの割合。
- Inventory カード
- Inventory カードには、ストレージクラスおよび 永続ボリューム要求 (PVC) の数が表示されます。
- Compression カード
このカードには、ケースが使用可能であるため、圧縮ステータスが enabled または disabled と表示されます。また、以下のようにストレージ効率の詳細も表示します。
- 書き込まれた圧縮可能データのどの部分が圧縮可能であるかを示す圧縮適格性 (ceph パラメーターごと)
- 圧縮可能なデータの圧縮比率
圧縮による節約は、圧縮可能なデータの合計節約 (レプリカを含む) を提供します。
既存のプールの圧縮を有効または無効にする方法は、Updating an existing pool を参照してください。
- Raw Capacity カード
このカードには、クラスター上のレプリケーションを含む RAW ストレージ容量の合計が表示されます。
-
Used
は、プールで使用されるストレージ容量を示します。 -
Available
は、クラスターで利用可能な Raw ストレージ容量を示します。
-
- Performance カード
- このカードでは、アプリケーションまたはアカウントごとの I/O 操作の使用状況とスループットの需要を確認できます。グラフは、インスタンス全体の平均遅延または帯域幅を示します。
第3章 アラート
3.1. アラートのセットアップ
内部モードのクラスターの場合、ストレージメトリクスサービス、ストレージクラスター、ディスクデバイス、クラスターの正常性、クラスター容量などに関連する各種のアラートが Block および File およびオブジェクトダッシュボードに表示されます。これらのアラートは外部モードでは使用できません。
このパネルには発生するアラートのみが表示されるため、アラートがアラートパネルに表示されるまでに数分の時間がかかる場合があります。
また、追加の詳細情報と共にアラートを表示し、OpenShift Container Platform でアラートの表示をカスタマイズすることもできます。
詳細は、アラートの管理 を参照してください。
第4章 リモートヘルスモニタリング
OpenShift Data Foundation はクラスターの正常性、使用状況、およびクラスターのサイズについての匿名の集計情報を収集し、統合コンポーネントの Telemetry 経由で これを Red Hat にレポートします。Red Hat では、このような情報を OpenShift Data Foundation の改善のために、またお客様に影響を与える問題への対応を迅速化するために使用します。
Telemetry 経由でデータを Red Hat にレポートするクラスターは 接続クラスター (connected cluster) と見なされます。
4.1. Telemetry について
Telemetry は厳選されたクラスターモニタリングメトリクスのサブセットを Red Hat に送信します。これらのメトリクスは継続的に送信され、以下について記述します。
- OpenShift Data Foundation クラスターのサイズ
- OpenShift Data Foundation コンポーネントの健全性およびステータス
- 実行されるアップグレードの正常性およびステータス
- OpenShift Data Foundation のコンポーネントおよび機能についての使用情報 (一部の制限された情報)
- クラスターモニタリングコンポーネントによってレポートされるアラートについてのサマリー情報
Red Hat では、リアルタイムでクラスターの健全性をモニターし、お客様に影響を与える問題に随時対応するためにこのデータの継続的なストリームを使用します。またこれにより、Red Hat がサービスへの影響を最小限に抑えつつつアップグレードエクスペリエンスの継続的な改善に向けた OpenShift Data Foundation のアップグレードの展開を可能にします。
このデバッグ情報は、サポートケースでレポートされるデータへのアクセスと同じ制限が適用された状態で Red Hat サポートおよびエンジニアリングチームが利用できます。接続クラスターのすべての情報は、OpenShift Data Foundationd をより使用しやすく、より直感的に使用できるようにするために Red Hat によって使用されます。この情報のいずれもサードパーティーと共有されることはありません。
4.2. Telemetry で収集される情報
Telemetry によって収集される主な情報には、以下が含まれます。
-
Ceph クラスターのサイズ (バイト単位):
"ceph_cluster_total_bytes"
-
使用される Ceph クラスターストレージの量 (バイト単位):
"ceph_cluster_total_used_raw_bytes"
-
Ceph クラスターの正常性ステータス:
"ceph_health_status"
-
osds の合計カウント:
"job:ceph_osd_metadata:count"
-
RHOCP クラスターに存在する永続ボリュームの合計数:
"job:kube_pv:count"
-
Ceph クラスターのすべてのプールの iops (reads+writes) 値の合計:
"job:ceph_pools_iops:total"
-
Ceph クラスター内のすべてのプールの iops (reads+writes) 値の合計:
"job:ceph_pools_iops_bytes:total"
-
実行されている Ceph クラスターバージョンの合計数:
"job:ceph_versions_running:count"
-
正常でない noobaa バケットの合計数:
"job:noobaa_total_unhealthy_buckets:sum"
-
noobaa バケットの合計数:
"job:noobaa_bucket_count:sum"
-
noobaa オブジェクトの合計数:
"job:noobaa_total_object_count:sum"
-
noobaa のアカウント数:
"noobaa_accounts_num"
-
noobaa のストレージの使用量の合計 (バイト単位):
"job:noobaa_total_object_count:sum"
-
特定のストレージプロビジョナーから PVC によって要求されるストレージの合計量 (バイト単位):
"cluster:kube_persistentvolumeclaim_resource_requests_storage_bytes:provisioner:sum"
-
特定のストレージプロビジョナーから PVC によって使用されるストレージの合計量 (バイト単位):
"cluster:kubelet_volume_stats_used_bytes:provisioner:sum"
Telemetry は、ユーザー名、パスワード、またはユーザーリソースの名前またはアドレスなどの識別情報を収集しません。