검색

17.10. 손상된 NVDIMM 장치 탐지 및 교체

download PDF

시스템 로그 또는 S.M.A.R.T.T.에 의해 보고된 NVDIMM(Non-Volatile Dual In-line Memory Modules)과 관련된 오류 메시지가 발견되면 NVDIMM 장치가 실패할 수 있습니다. 이 경우 다음을 수행해야 합니다.

  1. 어떤 NVDIMM 장치가 실패하는지 탐지합니다.
  2. 여기에 저장된 데이터를 백업
  3. 물리적으로 장치를 교체

절차

  1. 손상된 장치를 감지합니다.

    # ndctl list --dimms --regions --health
    {
      "dimms":[
        {
          "dev":"nmem1",
          "id":"8089-a2-1834-00001f13",
          "handle":17,
          "phys_id":32,
          "security":"disabled",
          "health":{
            "health_state":"ok",
            "temperature_celsius":35.0,
            [...]
          }
    [...]
    }
  2. 손상된 NVDIMM의 Restics _id 특성을 찾습니다.

    # ndctl list --dimms --human

    이전 예에서 nmem0 이 손상된 NVDIMM임을 알 수 있습니다. 따라서 nmem0ECDHEs_id 특성을 찾습니다.

    예 17.7. NVDIMM의 Restics_id 속성

    다음 예에서 Restics _id0x10 입니다.

    # ndctl list --dimms --human
    
    [
      {
        "dev":"nmem1",
        "id":"XXXX-XX-XXXX-XXXXXXXX",
        "handle":"0x120",
        "phys_id":"0x1c"
      },
      {
        "dev":"nmem0",
        "id":"XXXX-XX-XXXX-XXXXXXXX",
        "handle":"0x20",
        "phys_id":"0x10",
        "flag_failed_flush":true,
        "flag_smart_event":true
      }
    ]
  3. 손상된 NVDIMM의 메모리 슬롯을 찾습니다.

    # dmidecode

    출력에서 Handle 식별자가 손상된 NVDIMM의 Restics _id 속성과 일치하는 항목을 찾습니다. 이 필드에 는 손상된 NVDIMM에서 사용하는 메모리 슬롯이 나열됩니다.

    예 17.8. NVDIMM 메모리 슬롯 목록

    다음 예에서 nmem0 장치는 0x0010 식별자와 일치하며 DIMM-XXX-YYY 메모리 슬롯 을 사용합니다.

    # dmidecode
    
    ...
    Handle 0x0010, DMI type 17, 40 bytes
    Memory Device
            Array Handle: 0x0004
            Error Information Handle: Not Provided
            Total Width: 72 bits
            Data Width: 64 bits
            Size: 125 GB
            Form Factor: DIMM
            Set: 1
            Locator: DIMM-XXX-YYYY
            Bank Locator: Bank0
            Type: Other
            Type Detail: Non-Volatile Registered (Buffered)
    ...
  4. NVDIMM의 네임스페이스의 모든 데이터를 백업합니다. NVDIMM을 교체하기 전에 데이터를 백업하지 않으면 시스템에서 NVDIMM을 제거할 때 데이터가 손실됩니다.

    주의

    NVDIMM이 완전히 손상될 때와 같이 경우에 따라 백업이 실패할 수 있습니다.

    이를 방지하기 위해 S.M.A.R.T. 를 사용하여 NVDIMM 상태 모니터링에 설명된 대로 NVDIMM 장치를 정기적으로 모니터링하고 오류가 발생하기 전에 NVDIMM을 교체합니다.

  5. NVDIMM의 네임스페이스를 나열합니다.

    # ndctl list --namespaces --dimm=DIMM-ID-number

    예 17.9. NVDIMM 네임스페이스 목록

    다음 예에서 nmem0 장치에는 백업해야 하는 namespace0.0namespace0.2 네임스페이스가 포함되어 있습니다.

    # ndctl list --namespaces --dimm=0
    
    [
      {
        "dev":"namespace0.2",
        "mode":"sector",
        "size":67042312192,
        "uuid":"XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX",
        "raw_uuid":"XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX",
        "sector_size":4096,
        "blockdev":"pmem0.2s",
        "numa_node":0
      },
      {
        "dev":"namespace0.0",
        "mode":"sector",
        "size":67042312192,
        "uuid":"XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX",
        "raw_uuid":"XXXXXXXX-XXXX-XXXX-XXXX-XXXXXXXXXXXX",
        "sector_size":4096,
        "blockdev":"pmem0s",
        "numa_node":0
      }
    ]
  6. 손상된 NVDIMM을 물리적으로 교체하십시오.

추가 리소스

  • ndctl-list(1)dmidecode(8) 매뉴얼 페이지
Red Hat logoGithubRedditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

© 2024 Red Hat, Inc.