18.9. 破損した NVDIMM デバイスの検出と交換
不揮発性デュアルインラインメモリーモジュール (NVDIMM) に関連するエラーメッセージがシステムログまたは S.M.A.R.T. によって報告されている場合は、NVDIMM デバイスに障害が発生している可能性があります。この場合は、以下を行う必要があります。
- NVDIMM デバイスがエラーしていることを検出
- そこに格納されているデータをバックアップ
- デバイスを物理的に交換
手順
壊れたデバイスを検出します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 破損した NVDIMM の
phys_id
属性を見つけます。ndctl list --dimms --human
# ndctl list --dimms --human
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 前述の例では、
nmem0
が破損した NVDIMM になります。したがって、nmem0
のphys_id
属性を確認します。例18.5 NVDIMMs の phys_id 属性
以下の例では、
phys_id
は0x10
です。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 壊れた NVDIMM のメモリースロットを見つけます。
dmidecode
# dmidecode
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 出力において、Handle 識別子が、破損した NVDIMM の
phys_id
属性と一致するエントリーを確認します。Locator フィールドは、破損した NVDIMM が使用するメモリースロットの一覧を表示します。例18.6 NVDIMM メモリースロットリスティング
以下の例では、
nmem0
デバイスが0x0010
の識別子に一致し、DIMM-XXX-YYYY
メモリースロットを使用します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow NVDIMM 上の名前空間にある全データのバックアップを作成します。NVDIMM を交換する前にデータのバックアップを作成しないと、システムから NVDIMM を削除したときにデータが失われます。
警告時折、NVDIMM が完全に破損すると、バックアップが失敗することがあります。
これを防ぐには、Monitoring NVDIMM health using S.M.A.R.T. で説明されているように、S.M.A.R.T. を使用して NVDIMM デバイスを定期的に監視し、故障した NVDIMM を破損する前に交換します。
NVDIMM の名前空間を一覧表示します。
ndctl list --namespaces --dimm=DIMM-ID-number
# ndctl list --namespaces --dimm=DIMM-ID-number
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 例18.7 NVDIMM 名前空間のリスト表示
以下の例では、
nmem0
デバイスには、バックアップが必要な名前空間のnamespace0.0
とnamespace0.2
が含まれます。Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 破損した NVDIMM を物理的に交換します。