OpenShift Container Storage のモニターリング
ストレージダッシュボードを使用した OpenShift Container Storage のモニターリング
概要
多様性を受け入れるオープンソースの強化
Red Hat では、コード、ドキュメント、Web プロパティーにおける配慮に欠ける用語の置き換えに取り組んでいます。まずは、マスター (master)、スレーブ (slave)、ブラックリスト (blacklist)、ホワイトリスト (whitelist) の 4 つの用語の置き換えから始めます。この取り組みは膨大な作業を要するため、今後の複数のリリースで段階的に用語の置き換えを実施して参ります。詳細は、弊社の CTO である Chris Wright のメッセージ を参照してください。
Red Hat ドキュメントへのフィードバック (英語のみ)
弊社のドキュメントについてのご意見をお聞かせください。ドキュメントの改善点があれば、ぜひお知らせください。フィードバックをお寄せいただくには、以下をご確認ください。
特定の部分についての簡単なコメントをお寄せいただく場合は、以下をご確認ください。
- ドキュメントの表示が Multi-page HTML 形式になっていていることを確認してください。ドキュメントの右上隅に Feedback ボタンがあることを確認してください。
- マウスカーソルを使用して、コメントを追加するテキストの部分を強調表示します。
- 強調表示されたテキストの下に表示される Add Feedback ポップアップをクリックします。
- 表示される指示に従ってください。
より詳細なフィードバックをお寄せいただく場合は、Bugzilla のチケットを作成してください。
- Bugzilla の Web サイトに移動します。
- Component セクションで、documentation を選択します。
- Description フィールドに、ドキュメントの改善に向けたご提案を記入してください。ドキュメントの該当部分へのリンクも追加してください。
- Submit Bug をクリックします。
第1章 クラスターの正常性
1.1. OpenShift Container Storage の正常性の検証
ストレージの正常性は、Block および File、および Object ダッシュボードに表示されます。
手順
- OpenShift Web コンソールにログインします。
以下の場所にある Status カードを確認します。
- Storage → Overview → Block and File
Storage → Overview → Object
緑色のチェックマーク が Status カードに表示される場合、クラスターは正常です。
状態が Healthy でない場合、現在の状態および表示されるアラートについての詳細は、「ストレージの正常性レベルおよびクラスターの状態」 を参照してください。
1.2. ストレージの正常性レベルおよびクラスターの状態
OpenShift Container Storage に関連するステータス情報およびアラートがストレージダッシュボードに表示されます。
1.2.1. Data Foundation ダッシュボードのインジケーター
Block and File ダッシュボードには、OpenShift Container Storage 全体の状態と永続ボリュームの状態が表示されます。
各リソースタイプの状態の種類については、以下の表に一覧表示されています。
状態 | アイコン | 説明 |
---|---|---|
UNKNOWN |
| OpenShift Container Storage はデプロイされていないか、または利用できません。 |
緑色のチェックマーク |
| クラスターの状態は正常です。 |
Warning |
| OpenShift Container Storage クラスターが警告の状態にあることを確認します。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。 |
Error |
| OpenShift Container Storag クラスターでエラーが発生し、一部のコンポーネントが機能しなくなる場合。内部モードでは、アラートが問題の詳細と共に表示されます。外部モードでは、アラートは表示されません。 |
1.2.2. Object ダッシュボードのインジケーター
Object ダッシュボードには、Multi-Cloud Object Gateway およびクラスター内のオブジェクト要求の状態が表示されます。
各リソースタイプの状態の種類については、以下の表に一覧表示されています。
状態 | 説明 |
---|---|
緑色のチェックマーク | オブジェクトストレージは正常です。 |
Multicloud Object Gateway is not running | NooBaa システムが見つからない場合に表示されます。 |
All resources are unhealthy | すべての NooBaa プールが正常でない場合に表示されます。 |
Many buckets have issues | バケットの 50% 以上でエラーが発生する場合に表示されます。 |
Some buckets have issues | バケットの 30% 以上でエラーが発生する場合に表示されます。 |
Unavailable | ネットワークの問題やエラーがある場合に表示されます。 |
1.2.3. Alert パネル
Alert パネルは、クラスターの状態が正常ではない場合に、Block および File ダッシュボードと Object ダッシュボードの両方の Status カードの下に表示されます。
特定のアラートおよびそれらに応答する方法についての情報は、OpenShift Container Storage のトラブルシューティング を参照してください。
第2章 メトリクス
2.1. Block および File ダッシュボードでのメトリクス
Block および File ダッシュボードを表示するには、OpenShift Web コンソールで Storage → Overview をクリックします。
Block および File ダッシュボードの以下のカードは、デプロイメントモード (内部または外部) をベースとするメトリクスを提供します。
- Details カード
Details カードには、以下が表示されます。
- サービス名
- クラスター名
- システムが実行されるプロバイダーの名前 (例: AWS、VSphere、ベアメタルの場合は None)
- モード (内部または外部のいずれかのデプロイメントモード)
- OpenShift Container Storage Operator バージョン。
- Inventory カード
- Inventory カードには、OpenShift Container Storage プロビジョナーでサポートされるアクティブなノード、PVC、および PV の数が表示されます。カードの左側に、ストレージノード、PVC および PV の合計数が表示されます。カードの右側には、Not Ready 状態のストレージノードの数が表示されますが、Pending 状態の PVC と Released 状態の PV の数が表示されます。
外部モードでは、OpenShift Container Storage に専用ノードはないため、ノードの数はデフォルトで 0 になります。
- Status カード
このカードは、クラスターがエラーなしで稼働しているか、または何らかの問題があるかを示します。
内部モードの場合、Data Resiliency (データ回復性) は、レプリカ全体での Ceph のデータリバランスのステータスを示します。内部モードのクラスターが警告またはエラー状態にあると、Alerts セクションが関連するアラートと共に表示されます。
外部モードの場合、Data Resiliency (データ回復性) およびアラートは表示されません。
- Raw Capacity カード
このカードには、クラスター上のレプリケーションを含む RAW ストレージ容量の合計が表示されます。
-
Used
レジェンドは、クラスター上で使用されている RAW ストレージ容量を示します。 -
Available
レジェンドは、クラスターで利用可能な Raw ストレージ容量を示します。
-
このカードは、外部モードクラスターには適用されません。
- Used Capacity Breakdown カード
このカードには、クラスターに保存されているレプリカ以外の実際のデータ量とそのディストリビューションが表示されます。カードの上部にあるドロップダウンメニューから、Projects、 Storage Classes および Pods のいずれかを選択できます。これらのオプションは、グラフに表示されるデータをフィルターするために使用します。グラフには、使用状況に基づいて上位 5 つのエンティティーのみに使用される容量が表示されます。残りのエンティティーの集約使用量が Other として表示されます。
オプション 表示 プロジェクト
OpenShift Container ストレージを使用している各プロジェクトの集約された容量と現在使用されている量。
ストレージクラス
OpenShift Container Storage ベースのストレージクラスに基づいて集約容量。
Pod
OpenShift Container Storage プロビジョナーでサポートされる PVC の使用を試行するすべての Pod。
外部モードについては、Capacity breakdown カード を参照してください。
- Capacity breakdown カード
- このカードは、外部モードクラスターにのみ適用されます。このカードでは、プロジェクト、ストレージクラス、Pod ごとの容量の内訳を表示できます。カードの上部にあるドロップダウンメニューから、Projects、 Storage Classes および Pods のいずれかを選択できます。これらのオプションは、グラフに表示されるデータをフィルターするために使用します。グラフには、使用状況に基づいて上位 5 つのエンティティーのみに使用される容量が表示されます。残りのエンティティーの集約使用量が Other として表示されます。
- Utilization カード
このカードには、使用済みの容量、1 秒あたりの入出力操作、レイテンシー、スループット、および内部モードのクラスターのリカバリー情報が表示されます。
外部モードでは、このカードには、そのクラスターの使用済みおよび要求される容量情報のみが表示されます。
- Storage Efficiency カード
- このカードは、すべての圧縮可能なプールを含む、圧縮可能なデータの有効性のメトリクスを示す圧縮率を示しています。また、圧縮対応プールおよび関連付けられたレプリカすべてに含まれる実際のディスク容量を表す節約メトリクスも示しています。
- アクティビティーカード
このカードは、OpenShift Container Storage クラスターで発生しているアクティビティーや、最近発生したアクティビティーが表示されます。カードは 2 つのセクションに分かれます。
- Ongoing: データ回復性および OpenShift Container Storage Operator のアップグレードに関連する継続中のアクティビティーの進捗を表示します。
-
recent Events:
openshift-storage
namespace で発生するイベントの一覧を表示します。
2.2. Object Service ダッシュボードでのメトリクス
Object ダッシュボードを表示するには、OpenShift Container Platform Web コンソールで Storage → Overview → Object をクリックします。
以下のメトリクスは、Object ダッシュボードで利用できます。
- Details カード
このカードには、以下の情報が表示されます。
- サービス名: Multicloud Object Gateway (MCG) サービス名。
- System Name: Multicloud Object Gateway および RADOS Object Gateway のシステム名。Multicloud Object Gateway のシステム名は MCG 管理ユーザーインターフェイスへのハイパーリンクでもあります。
- プロバイダー: システムが実行されるプロバイダーの名前 (例: AWS、VSphere、ベアメタルの場合は None)
- バージョン: OpenShift Container Storage Operator バージョン。
- Storage Efficiency カード
- このカードでは、MCG が重複排除と圧縮によりストレージバックエンドリソース消費をどのように最適化するかを確認し、ベアメタルとクラウドベースのストレージの容量およびクラウドベースのストレージの egress に基づいて計算される効率性比率 (アプリケーションデータと論理データの比較) と、予測された節約の数値 (MCG がストレージプロバイダーに送信しなかったバイト数) が表示されます。
- Buckets カード
バケットは、アプリケーションの代わりにデータを保存するために MCG および RADOS Object Gateway が管理するコンテナーです。これらのバケットは、Object Bucket Claim (オブジェクトバケット要求、OBC) を使用して作成され、アクセスされます。特定のポリシーをバケットに適用して、データの配置、データのスピルオーバー、データの回復性、容量のクォータなどをカスタマイズできます。
このカードでは、オブジェクトバケット (OB) および Object Bucket Claim (オブジェクトバケット要求、OBC) に関する情報が個別に表示されます。OB には、S3 またはユーザーインターフェイス (UI) を使用して作成されたすべてのバケットと、OBC には YAML またはコマンドラインインターフェイス (CLI) を使用して作成されたすべてのバケットが含まれます。バケットタイプの左側に表示される数は、OB または OBC の合計数です。右側に表示される数字はエラー数であり、エラー数がゼロよりも大きい場合にのみ表示されます。数字をクリックすると、警告またはエラーステータスのあるバケットの一覧を表示できます。
- Resource Providers カード
- このカードには、現在使用中のすべての Multicloud Object Gateway (MCG) および RADOS Object Gateway リソースの一覧が表示されます。これらのリソースは、バケットポリシーに従ってデータを保存するために使用されます。これらはクラウドベースのリソースまたはベアメタルリソースになります。
- Status カード
このカードは、システムとそのサービスが問題なく実行されているかどうかを示します。システムが警告またはエラー状態にあると、Alerts セクションが表示され、関連するアラートが表示されます。問題に関する詳細情報については、各アラートの横にあるアラートリンクをクリックしてください。ヘルスチェックに関する情報は、クラスターの正常性 を参照してください。
複数のオブジェクトストレージサービスがクラスターで利用可能な場合は、サービスタイプ (Object Service または Data Resiliency など) をクリックして個々のサービスの状態を表示します。
このステータスカードの Data Resiliency (データ回復性) では、Multicloud Object Gateway および RADOS Object Gateway で保存されたデータに関して回復性の問題があるかどうかが分かります。
- Capacity breakdown カード
- このカードでは、アプリケーションが Multicloud Object Gateway および RADOS Object Gateway でオブジェクトストレージをどのように消費するかを視覚化できます。Service Type ドロップダウンを使用して、Multicloud Gateway および Object Gateway の容量の内訳を個別に表示できます。Multicloud Object Gateway を表示する場合、Break By ドロップダウンを使用して、グラフ内で Projects または Bucket Class 別に結果をフィルターリングできます。
- Performance カード
このカードでは、Multicloud Object Gateway または RADOS Object Gateway のパフォーマンスを表示できます。Service Type ドロップダウンを使用して、表示するサービスタイプを選択します。
Multicloud Object Gateway アカウントの場合は、I/O 操作と論理的に使用される容量を表示できます。プロバイダーの場合、I/O 操作、物理的および論理的な使用量、および egress を表示できます。
以下の表は、カードの上部にあるドロップダウンメニューからの選択に応じて表示される各種のメトリクスを示しています。
表2.1 Multicloud Object Gateway のインジケーター コンシューマータイプ メトリクス チャートの表示 アカウント
I/O 操作
上位 5 コンシューマーの読み取りおよび書き込み I/O 操作を表示します。すべてのコンシューマーの読み取りおよび書き込みの合計は下部に表示されます。この情報は、アプリケーションまたはアカウントごとにスループット要求 (IOPS) をモニターするのに役立ちます。
アカウント
論理的な使用容量
上位 5 コンシューマーの各アカウントの論理的な使用量の合計を表示します。これは、アプリケーションまたはアカウントごとのスループット需要をモニターするのに役立ちます。
プロバイダー
I/O 操作
プロバイダーがホストするストレージバックエンドにアクセスする際に MCG が生成する I/O 操作の数を表示します。これはクラウド内のトラフィックを把握するのに役立ち、I/O パターンに従ってリソース割り当てを改善することができるため、コストの最適化に役立ちます。
プロバイダー
物理的な使用量 vs 論理的な使用量
プロバイダーごとに物理的な使用量と論理的な使用量を比較して、システム内のデータ消費を表示します。これにより、ストレージリソースを制御し、使用状況の特性やパフォーマンス要件に基づいて配置ストラテジーを立てることができ、これによりコストを最適化できる可能性もあります。
プロバイダー
Egress
各プロバイダーから MCG が取得するデータ量 (アプリケーションに関連する読み取りの帯域幅)。これにより、egress パターンに基づいてリソースの割り当てを改善するためにクラウド内のトラフィックを把握し、コストを最適化することができます。
アカウント
I/O 操作
上位 5 コンシューマーの読み取りおよび書き込み I/O 操作を表示します。すべてのコンシューマーの読み取りおよび書き込みの合計は下部に表示されます。この情報は、アプリケーションまたはアカウントごとにスループット要求 (IOPS) をモニターするのに役立ちます。
アカウント
論理的な使用容量
上位 5 コンシューマーの各アカウントの論理的な使用量の合計を表示します。これは、アプリケーションまたはアカウントごとのスループット需要をモニターするのに役立ちます。
RADOS Object Gateway では、Metric ドロップダウンを使用して Latency または Bandwidth を表示できます。
- レイテンシー: RADOS Object Gateway インスタンス全体の GET/PUT のレイテンシーの平均的な差異を視覚的に表示します。
- 帯域幅: RADOS Object Gateway インスタンス間の GET/PUT 帯域幅の合計を視覚的に表示します。
- アクティビティーカード
このカードは、OpenShift Container Storage クラスターで発生しているアクティビティーや、最近発生したアクティビティーが表示されます。カードは 2 つのセクションに分かれます。
- Ongoing: データ回復性および OpenShift Container Storage Operator のアップグレードに関連する継続中のアクティビティーの進捗を表示します。
-
recent Events:
openshift-storage
namespace で発生するイベントの一覧を表示します。
第3章 アラート
3.1. アラートのセットアップ
内部モードのクラスターの場合、ストレージメトリクスサービス、ストレージクラスター、ディスクデバイス、クラスターの正常性、クラスター容量などに関連する各種のアラートが Block および File およびオブジェクトダッシュボードに表示されます。これらのアラートは外部モードでは使用できません。
このパネルには発生するアラートのみが表示されるため、アラートがアラートパネルに表示されるまでに数分の時間がかかる場合があります。
また、追加の詳細情報と共にアラートを表示し、OpenShift Container Platform でアラートの表示をカスタマイズすることもできます。
詳細は、アラートの管理 を参照してください。
第4章 リモートヘルスモニターリング
OpenShift Container Storage はクラスターの正常性、使用状況、およびクラスターのサイズについての匿名の集計情報を収集し、統合コンポーネントの Telemetry 経由で これを Red Hat にレポートします。Red Hat では、このような情報を OpenShift Container Storage の改善のために、またお客様に影響を与える問題への対応を迅速化するために使用します。
Telemetry 経由でデータを Red Hat にレポートするクラスターは 接続クラスター (connected cluster) と見なされます。
4.1. Telemetry について
Telemetry は厳選されたクラスターモニタリングメトリクスのサブセットを Red Hat に送信します。これらのメトリクスは継続的に送信され、以下について記述します。
- OpenShift Container Storage クラスターのサイズ
- OpenShift Container Storage コンポーネントの正常性およびステータス
- 実行されるアップグレードの正常性およびステータス
- OpenShift Container Storage コンポーネントおよび機能についての制限された使用情報
- クラスターモニターリングコンポーネントによってレポートされるアラートについてのサマリー情報
Red Hat では、リアルタイムでクラスターの健全性をモニターし、お客様に影響を与える問題に随時対応するためにこのデータの継続的なストリームを使用します。またこれにより、Red Hat がサービスへの影響を最小限に抑えつつつアップグレードエクスペリエンスの継続的な改善に向けた OpenShift Container Storage のアップグレードの展開を可能にします。
このデバッグ情報は、サポートケースでレポートされるデータへのアクセスと同じ制限が適用された状態で Red Hat サポートおよびエンジニアリングチームが利用できます。接続クラスターのすべての情報は、OpenShift Container Storage をより使用しやすく、より直感的に使用できるようにするために Red Hat によって使用されます。この情報のいずれもサードパーティーと共有されることはありません。
4.2. Telemetry で収集される情報
Telemetry によって収集される主な情報には、以下が含まれます。
-
Ceph クラスターのサイズ (バイト単位):
"ceph_cluster_total_bytes"
-
使用される Ceph クラスターストレージの量 (バイト単位):
"ceph_cluster_total_used_raw_bytes"
-
Ceph クラスターの正常性ステータス:
"ceph_health_status"
-
osds の合計カウント:
"job:ceph_osd_metadata:count"
-
RHOCP クラスターに存在する永続ボリュームの合計数:
"job:kube_pv:count"
-
Ceph クラスターのすべてのプールの iops (reads+writes) 値の合計:
"job:ceph_pools_iops:total"
-
Ceph クラスター内のすべてのプールの iops (reads+writes) 値の合計:
"job:ceph_pools_iops_bytes:total"
-
実行されている Ceph クラスターバージョンの合計数:
"job:ceph_versions_running:count"
-
正常でない noobaa バケットの合計数:
"job:noobaa_total_unhealthy_buckets:sum"
-
noobaa バケットの合計数:
"job:noobaa_bucket_count:sum"
-
noobaa オブジェクトの合計数:
"job:noobaa_total_object_count:sum"
-
noobaa のアカウント数:
"noobaa_accounts_num"
-
noobaa のストレージの使用量の合計 (バイト単位):
"job:noobaa_total_object_count:sum"
-
特定のストレージプロビジョナーから PVC によって要求されるストレージの合計量 (バイト単位):
"cluster:kube_persistentvolumeclaim_resource_requests_storage_bytes:provisioner:sum"
-
特定のストレージプロビジョナーから PVC によって使用されるストレージの合計量 (バイト単位):
"cluster:kubelet_volume_stats_used_bytes:provisioner:sum"
Telemetry は、ユーザー名、パスワード、またはユーザーリソースの名前またはアドレスなどの識別情報を収集しません。上記の Telemetry 情報に加え、NooBaa はアカウント、バケット、オブジェクト、容量、ノード、および接続性の正常性についての統計情報を phonehome.noobaa.com に送信します。