5.8.3. Detección y sustitución de un dispositivo NVDIMM roto
Si encuentra mensajes de error relacionados con NVDIMM reportados en el registro del sistema o por S.M.A.R.T., podría significar que un dispositivo NVDIMM está fallando. En ese caso, es necesario:
- Detectar qué dispositivo NVDIMM está fallando
- Haz una copia de seguridad de los datos almacenados en él
- Sustituir físicamente el dispositivo
Procedimiento
Para detectar el dispositivo roto, utilice el siguiente comando:
ndctl list --dimms --regions --health --media-errors --human
# ndctl list --dimms --regions --health --media-errors --humanCopy to Clipboard Copied! Toggle word wrap Toggle overflow El campo
badblocksmuestra qué NVDIMM está roto. Anote su nombre en el campodev.Ejemplo 5.7. Estado de salud de los dispositivos NVDIMM
En el siguiente ejemplo, el NVDIMM llamado
nmem0está roto:Copy to Clipboard Copied! Toggle word wrap Toggle overflow Utilice el siguiente comando para encontrar el atributo
phys_iddel NVDIMM roto:ndctl list --dimms --human
# ndctl list --dimms --humanCopy to Clipboard Copied! Toggle word wrap Toggle overflow Por el ejemplo anterior, sabes que
nmem0es el NVDIMM roto. Por lo tanto, encuentra el atributophys_iddenmem0.Ejemplo 5.8. Los atributos phys_id de los módulos NVDIMM
En el siguiente ejemplo, el
phys_ides0x10:Copy to Clipboard Copied! Toggle word wrap Toggle overflow Utilice el siguiente comando para encontrar la ranura de memoria del NVDIMM roto:
dmidecode
# dmidecodeCopy to Clipboard Copied! Toggle word wrap Toggle overflow En la salida, busque la entrada en la que el identificador
Handlecoincida con el atributophys_iddel NVDIMM roto. El campoLocatorenumera la ranura de memoria utilizada por el NVDIMM roto.Ejemplo 5.9. Listado de ranuras de memoria NVDIMM
En el siguiente ejemplo, el dispositivo
nmem0coincide con el identificador0x0010y utiliza la ranura de memoriaDIMM-XXX-YYYY:Copy to Clipboard Copied! Toggle word wrap Toggle overflow Haga una copia de seguridad de todos los datos de los espacios de nombre del NVDIMM. Si no hace una copia de seguridad de los datos antes de sustituir el NVDIMM, los datos se perderán cuando retire el NVDIMM del sistema.
AvisoEn algunos casos, como cuando el NVDIMM está completamente roto, la copia de seguridad podría fallar.
Para evitarlo, supervise regularmente sus dispositivos NVDIMM utilizando el S.M.A.R.T. como se describe en Sección 5.8.2, “Supervisión del estado de los NVDIMM mediante S.M.A.R.T.” y sustituya los NVDIMM que fallen antes de que se rompan.
Utilice el siguiente comando para listar los espacios de nombres en el NVDIMM:
ndctl list --namespaces --dimm=DIMM-ID-number
# ndctl list --namespaces --dimm=DIMM-ID-numberCopy to Clipboard Copied! Toggle word wrap Toggle overflow Ejemplo 5.10. Listado de espacios de nombres NVDIMM
En el siguiente ejemplo, el dispositivo
nmem0contiene los espacios de nombrenamespace0.0ynamespace0.2, de los que hay que hacer una copia de seguridad:Copy to Clipboard Copied! Toggle word wrap Toggle overflow - Reemplace el NVDIMM roto físicamente.
Recursos adicionales
-
La página de manual
ndctl-list(1) -
La página de manual
dmidecode(8)