18.9. 손상된 NVDIMM 장치 감지 및 교체
시스템 로그 또는 S.M.A.R.T.에 의해 보고된 NVDIMM(Non-Volatile Dual In-line Memory Modules)과 관련된 오류 메시지가 표시되면 NVDIMM 장치가 실패할 수 있습니다. 이 경우 다음을 수행해야 합니다.
- 실패한 NVDIMM 장치 감지
- 저장된 데이터를 백업
- 물리적으로 장치를 교체합니다.
프로세스
손상된 장치를 감지합니다.
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 손상된 NVDIMM의
phys_id
속성을 찾습니다.ndctl list --dimms --human
# ndctl list --dimms --human
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 이전 예에서
nmem0
이 손상된 NVDIMM임을 알고 있습니다. 따라서nmem0
의phys_id
속성을 찾습니다.예 18.5. NVDIMM의 phys_id 속성
다음 예에서
phys_id
는0x10
입니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow 손상된 NVDIMM의 메모리 슬롯을 찾습니다.
dmidecode
# dmidecode
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 출력에서 Handle 식별자가 손상된 NVDIMM의
phys_id
속성과 일치하는 항목을 찾습니다. 로케이터 필드에는 손상된 NVDIMM에서 사용하는 메모리 슬롯이 나열됩니다.예 18.6. NVDIMM 메모리 슬롯 목록
다음 예에서
nmem0
장치는0x0010
식별자와 일치하고DIMM-XXX-YYYY
메모리 슬롯을 사용합니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow NVDIMM의 네임스페이스의 모든 데이터를 백업합니다. NVDIMM을 교체하기 전에 데이터를 백업하지 않으면 시스템에서 NVDIMM을 제거하면 데이터가 손실됩니다.
주의NVDIMM이 완전히 손상된 경우와 같은 경우에 백업이 실패할 수 있습니다.
이를 방지하려면 S.M.A.R.T.를 사용하여 NVDIMM 상태에 설명된 대로 NVDIMM 장치를 정기적으로 모니터링하고 중단하기 전에 실패한 NVDIMM을 교체합니다.
NVDIMM의 네임스페이스를 나열합니다.
ndctl list --namespaces --dimm=DIMM-ID-number
# ndctl list --namespaces --dimm=DIMM-ID-number
Copy to Clipboard Copied! Toggle word wrap Toggle overflow 예 18.7. NVDIMM 네임스페이스 목록
다음 예에서
nmem0
장치에는 백업해야 하는namespace0.0
및namespace0.2
가 포함되어 있습니다.Copy to Clipboard Copied! Toggle word wrap Toggle overflow - 손상된 NVDIMM을 물리적으로 교체합니다.