21.10. 检测和替换断开问题的 NVDIMM 设备
如果您发现与系统日志中报告的 Non-Volatile Dual In-line Memory Modules (NVDIMM) 相关的错误消息,或者 S.M.A.R.T.,这可能意味着 NVDIMM 设备失败。在这种情况下,需要:
- 检测哪个 NVDIMM 设备失败
- 备份保存的数据
- 物理替换该设备
流程
- 检测有问题的设备: - Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 查找有问题的 NVDIMM 的 - phys_id属性:- ndctl list --dimms --human - # ndctl list --dimms --human- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow - 在上例中,您知道 - nmem0是有问题的 NVDIMM。因此,查找- nmem0的- phys_id属性。- 例 21.7. NVDIMM 的 phys_id 属性 - 在以下示例中, - phys_id是- 0x10:- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 查找有问题的 NVDIMM 的内存插槽: - dmidecode - # dmidecode- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow - 在输出中,找到 Handle 标识符与有问题的 NVDIMM 的 - phys_id属性匹配的条目。Locator 字段列出了有问题的 NVDIMM 使用的内存插槽。- 例 21.8. NVDIMM 内存插槽列表 - 在以下示例中, - nmem0设备与- 0x0010标识符匹配,并使用- DIMM-XXX-YYYY内存插槽:- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 备份 NVDIMM 命名空间中的所有数据。如果您在替换 NVDIMM 前没有备份数据,当您从系统中删除 NVDIMM 时数据将会丢失。 警告- 在某些情况下,比如 NVDIMM 完全无法正常工作,备份可能会失败。 - 要防止这种情况,请使用 S.M.A.R.T.T 定期监控 NVDIMM 设备,如 使用 S.M.A.R.T.T 监控 NVDIMM 健康状况 中所述,并在它们中断前替换失败的 NVDIMM。 
- 列出 NVDIMM 上的命名空间: - ndctl list --namespaces --dimm=DIMM-ID-number - # ndctl list --namespaces --dimm=DIMM-ID-number- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow - 例 21.9. NVDIMM 命名空间列表 - 在以下示例中, - nmem0设备包含- namespace0.0和- namespace0.2命名空间,您需要备份:- Copy to Clipboard Copied! - Toggle word wrap Toggle overflow 
- 以物理方式替换失效的 NVDIMM。