18.9. 破損した NVDIMM デバイスの検出と交換
不揮発性デュアルインラインメモリーモジュール (NVDIMM) に関連するエラーメッセージがシステムログまたは S.M.A.R.T. によって報告されている場合は、NVDIMM デバイスに障害が発生している可能性があります。この場合は、以下を行う必要があります。
- NVDIMM デバイスがエラーしていることを検出
- そこに格納されているデータをバックアップ
- デバイスを物理的に交換
手順
壊れたデバイスを検出します。
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 破損した NVDIMM の
phys_id属性を見つけます。ndctl list --dimms --human
# ndctl list --dimms --humanCopy to Clipboard Copied! Toggle word wrap Toggle overflow 前述の例では、
nmem0が破損した NVDIMM になります。したがって、nmem0のphys_id属性を確認します。例18.5 NVDIMMs の phys_id 属性
以下の例では、
phys_idは0x10です。Copy to Clipboard Copied! Toggle word wrap Toggle overflow 壊れた NVDIMM のメモリースロットを見つけます。
dmidecode
# dmidecodeCopy to Clipboard Copied! Toggle word wrap Toggle overflow 出力において、Handle 識別子が、破損した NVDIMM の
phys_id属性と一致するエントリーを確認します。Locator フィールドは、破損した NVDIMM が使用するメモリースロットの一覧を表示します。例18.6 NVDIMM メモリースロットリスティング
以下の例では、
nmem0デバイスが0x0010の識別子に一致し、DIMM-XXX-YYYYメモリースロットを使用します。Copy to Clipboard Copied! Toggle word wrap Toggle overflow NVDIMM 上の名前空間にある全データのバックアップを作成します。NVDIMM を交換する前にデータのバックアップを作成しないと、システムから NVDIMM を削除したときにデータが失われます。
警告時折、NVDIMM が完全に破損すると、バックアップが失敗することがあります。
これを防ぐには、Monitoring NVDIMM health using S.M.A.R.T. で説明されているように、S.M.A.R.T. を使用して NVDIMM デバイスを定期的に監視し、故障した NVDIMM を破損する前に交換します。
NVDIMM の名前空間を一覧表示します。
ndctl list --namespaces --dimm=DIMM-ID-number
# ndctl list --namespaces --dimm=DIMM-ID-numberCopy to Clipboard Copied! Toggle word wrap Toggle overflow 例18.7 NVDIMM 名前空間のリスト表示
以下の例では、
nmem0デバイスには、バックアップが必要な名前空間のnamespace0.0とnamespace0.2が含まれます。Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 破損した NVDIMM を物理的に交換します。