28.5. NVDIMM のトラブルシューティング
28.5.1. S.M.A.R.T を使用した NVDIMM の正常性の監視 リンクのコピーリンクがクリップボードにコピーされました!
リンクのコピーリンクがクリップボードにコピーされました!
一部の NVDIMMs は、正常性情報を取得する Self-Monitoring, Analysis and Reporting Technology (S.M.A.R.T.) インターフェイスに対応しています。
NVDIMM 正常性を定期的に監視して、データの損失を防ぎます。S.M.A.R.T. が NVDIMM の正常性ステータスで問題を報告する場合は、「破損した NVDIMM の検出と置き換え」 の説明に従って置き換えます。
前提条件
- 一部のシステムでは、以下のコマンドを使用して正常性情報を取得するために、acpi_ipmi ドライバーを読み込む必要があります。
modprobe acpi_ipmi
# modprobe acpi_ipmi
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
手順
- 正常性情報にアクセスするには、次のコマンドを使用します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow
28.5.2. 破損した NVDIMM の検出と置き換え リンクのコピーリンクがクリップボードにコピーされました!
リンクのコピーリンクがクリップボードにコピーされました!
システムログまたは S.M.A.R.T. に NVDIMM 関連のエラーメッセージが記録される場合は、NVDIMM デバイスがエラーを起こしていることが考えられます。この場合は、以下を行う必要があります。
- どの NVDIMM デバイスに障害が発生しているかを検出する
- 保存されているデータのバックアップを作成する
- デバイスを物理的に交換する
手順28.3 破損した NVDIMM の検出と置き換え
- 破損した DIMM を検出するには、次のコマンドを使用します。
ndctl list --dimms --regions --health --media-errors --human
# ndctl list --dimms --regions --health --media-errors --human
Copy to Clipboard Copied! Toggle word wrap Toggle overflow badblocks
フィールドは、NVDIMM が破損していることを示しています。dev
フィールドに名前を書き留めます。以下の例では、nmem0
という名前の NVDIMM が破損しています。例28.1 NVDIMM デバイスの正常性ステータス
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 次のコマンドを使用して、破損した NVDIMM の
phys_id
属性を検索します。ndctl list --dimms --human
# ndctl list --dimms --human
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 前の例では、nmem0
が破損した NVDIMM であることがわかります。したがって、nmem0
のphys_id
属性を確認します。以下の例では、phys_id
は0x10
です。例28.2 NVDIMMs の phys_id 属性
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 次のコマンドを使用して、破損した NVDIMM のメモリースロットを確認します。
dmidecode
# dmidecode
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力で、Handle
識別子が破損した NVDIMM のphys_id
属性と一致するエントリーを見つけます。Locator
フィールドには、破損した NVDIMM が使用するメモリースロットが一覧表示されます。以下の例では、nmem0
デバイスは0x0010
識別子と一致し、DIMM-XXX-YYYY
メモリースロットを使用します。例28.3 NVDIMM メモリースロットリスティング
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - NVDIMM 上の名前空間にある全データのバックアップを作成します。NVDIMM を交換する前にデータのバックアップを作成しないと、システムから NVDIMM を削除したときにデータが失われます。警告時折、NVDIMM が完全に破損すると、バックアップが失敗することがあります。これを防ぐため、「S.M.A.R.T を使用した NVDIMM の正常性の監視」 の説明に従って、S.M.A.R.T. を使用して NVDIMMs デバイスを定期的に監視し、破損する前にエラーを起こしている NVDIMMs を交換してください。次のコマンドを使用して、NVDIMM の名前空間をリスト表示します。
ndctl list --namespaces --dimm=DIMM-ID-number
# ndctl list --namespaces --dimm=DIMM-ID-number
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 以下の例では、nmem0
デバイスには、バックアップする必要があるnamespace
0.0および namespace
0.2 の名前空間が含まれます。例28.4 NVDIMM 名前空間のリスト表示
Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 破損した NVDIMM を物理的に交換します。