4.2. 대부분의 Ceph 모니터 오류


다음 표에는 ceph health detail 명령에서 반환되거나 Ceph 로그에 포함된 가장 일반적인 오류 메시지가 나열되어 있습니다. 표에서는 오류를 설명하고 문제를 해결하기 위한 특정 절차를 가리키는 해당 섹션에 대한 링크를 제공합니다.

4.2.1. 사전 요구 사항

  • 실행 중인 Red Hat Ceph Storage 클러스터.

4.2.2. Ceph Monitor 오류 메시지

일반적인 Ceph 모니터 오류 메시지 테이블 및 잠재적인 수정 사항.

오류 메시지참조

HEALTH_WARN

Mon.X가 다운됨( quorum 외)

Ceph Monitor가 쿼럼 없음

시계 스kew

시계 스kew

저장소가 너무 커서 있습니다.

Ceph 모니터 저장소가 너무 큽니다.

4.2.3. Ceph 로그의 일반적인 Ceph Monitor 오류 메시지

Ceph 로그에 있는 일반적인 Ceph 모니터 오류 메시지 테이블 및 잠재적인 수정 사항에 대한 링크입니다.

오류 메시지로그 파일참조

시계 스kew

기본 클러스터 로그

시계 스kew

시계가 동기화되지 않음

기본 클러스터 로그

시계 스kew

손상: 기록 중 오류

로그 모니터링

Ceph Monitor가 쿼럼 없음

Ceph Monitor 저장소 복구

손상: 1개의 파일이 누락됨

로그 모니터링

Ceph Monitor가 쿼럼 없음

Ceph Monitor 저장소 복구

catch 신호(Bus 오류)

로그 모니터링

Ceph Monitor가 쿼럼 없음

4.2.4. Ceph Monitor가 쿼럼 없음

하나 이상의 Ceph 모니터가 down 으로 표시되지만 다른 Ceph 모니터는 여전히 쿼럼을 구성할 수 있습니다. 또한 ceph health detail 명령은 다음과 유사한 오류 메시지를 반환합니다.

HEALTH_WARN 1 mons down, quorum 1,2 mon.b,mon.c
mon.a (rank 0) addr 127.0.0.1:6789/0 is down (out of quorum)

<그 Means>

Ceph는 다양한 이유로 Ceph 모니터를 down 으로 표시합니다.

ceph-mon 데몬이 실행 중이 아닌 경우 손상된 저장소가 있거나 다른 오류가 데몬을 시작하지 못하는 것입니다. 또한 /var/ 파티션이 가득 차 있을 수 있습니다. 결과적으로 ceph-mon 은 기본적으로 /var/lib/ceph/mon-SHORT_HOST_NAME/store.db 에 있는 저장소에 작업을 수행할 수 없습니다.

ceph-mon 데몬이 실행 중이지만 Ceph Monitor가 쿼럼 상태가 아닌 경우 문제의 원인은 Ceph Monitor 상태에 따라 달라집니다.

  • Ceph 모니터가 예상보다 오래 걸리는 경우 다른 Ceph 모니터를 찾을 수 없습니다. 이 문제는 네트워킹 문제로 인해 발생하거나 Ceph Monitor 맵(monmap)이 있을 수 있으며 잘못된 IP 주소의 다른 Ceph 모니터에 도달하려고 할 수 있습니다. 또는 monmap 이 최신 상태인 경우 Ceph 모니터의 시계가 동기화되지 않을 수 있습니다.
  • Ceph 모니터가 예상보다 오래 선택되는 경우 Ceph 모니터의 시계가 동기화되지 않을 수 있습니다.
  • Ceph Monitor가 동기화 에서 선택 및 뒤로 상태를 변경하는 경우 클러스터 상태가 진행 중입니다. 즉, 동기화 프로세스에서 처리할 수 있는 것보다 새 맵을 더 빠르게 생성합니다.
  • Ceph 모니터가 자체적으로 리더 또는 펩론으로 표시하는 경우, 나머지 클러스터에서 는 쿼럼이라고 생각되는 반면 나머지 클러스터는 그렇지 않은지 확인합니다. 이 문제는 실패한 클럭 동기화로 인해 발생할 수 있습니다.

이 문제를 해결하기 위해

  1. ceph-mon 데몬이 실행 중인지 확인합니다. 그렇지 않은 경우 다음을 시작합니다.

    구문

    systemctl status ceph-FSID@DAEMON_NAME
    systemctl start ceph-FSID@DAEMON_NAME

    예제

    [root@mon ~]# systemctl status ceph-b404c440-9e4c-11ec-a28a-001a4a0001df@mon.host01.service
    [root@mon ~]# systemctl start ceph-b404c440-9e4c-11ec-a28a-001a4a0001df@mon.host01.service

  2. ceph-mon 을 시작할 수 없는 경우 ceph-mon 데몬 의 단계를 따르십시오.
  3. ceph-mon 데몬을 시작할 수 있지만 down 으로 표시된 경우 ceph-mon 데몬이 실행 중이지만 'down'으로 표시된 단계를 따르십시오.

ceph-mon 데몬을 시작할 수 없습니다.

  1. 기본적으로 /var/log/ceph/CLUSTER_FSID/ceph-mon에 있는 해당 Ceph 모니터 로그를 확인합니다. 기본적으로HOST_NAME.log.

    참고

    기본적으로 모니터 로그는 로그 폴더에 없습니다. 로그가 폴더에 표시되도록 파일에 로깅을 활성화해야 합니다. 파일에 로깅할 수 있도록 Ceph 데몬 로그를 참조하십시오.

  2. 로그에 다음 항목과 유사한 오류 메시지가 포함된 경우 Ceph Monitor에 손상된 저장소가 있을 수 있습니다.

    Corruption: error in middle of record
    Corruption: 1 missing files; example: /var/lib/ceph/mon/mon.0/store.db/1234567.ldb

    이 문제를 해결하려면 Ceph Monitor를 교체하십시오. 실패한 모니터 교체를 참조하십시오.

  3. 로그에 다음과 유사한 오류 메시지가 포함된 경우 /var/ 파티션이 꽉 찰 수 있습니다. /var/ 에서 불필요한 데이터를 삭제합니다.

    Caught signal (Bus error)
    중요

    Monitor 디렉토리에서 수동으로 데이터를 삭제하지 마십시오. 대신 ceph-monstore-tool 을 사용하여 압축합니다. 자세한 내용은 Ceph Monitor 저장소 업그레이드를 참조하십시오.

  4. 다른 오류 메시지가 표시되면 지원 티켓을 엽니다. 자세한 내용은 Red Hat 지원 문의를 참조하십시오.

ceph-mon 데몬이 실행 중이지만 down으로 표시됩니다.

  1. 쿼럼이 없는 Ceph 모니터 호스트에서 mon_status 명령을 사용하여 해당 상태를 확인합니다.

    [root@mon ~]# ceph daemon ID mon_status

    ID 를 Ceph 모니터의 ID로 바꿉니다. 예를 들면 다음과 같습니다.

    [ceph: root@host01 /]# ceph daemon mon.host01 mon_status
  2. 상태가 probing 이면 mon_status 출력에서 다른 Ceph 모니터의 위치를 확인합니다.

    1. 주소가 올바르지 않으면 Ceph Monitor에 잘못된 Ceph Monitor 맵(monmap)이 있습니다. 이 문제를 해결하려면 Ceph 모니터 맵 삽입을 참조하십시오.
    2. 주소가 올바르면 Ceph Monitor 시계가 동기화되었는지 확인합니다. 자세한 내용은 시계 스케이프를 참조하십시오. 또한 네트워킹 문제 해결을 참조하십시오. 자세한 내용은 네트워킹 문제 해결을 참조하십시오.
  3. 상태가 선택 되면 Ceph Monitor 시계가 동기화되었는지 확인합니다. 자세한 내용은 시계 스케이프를 참조하십시오.
  4. 동기화 선택에서 상태가 변경되면 지원 티켓을 엽니다. 자세한 내용은 Red Hat 지원 문의를 참조하십시오.
  5. Ceph 모니터가 리더 또는 펩 론인 경우 Ceph 모니터 클럭이 동기화되었는지 확인합니다. 자세한 내용은 시계 스케이프를 참조하십시오. 시계를 동기화해도 문제가 해결되지 않는 경우 지원 티켓을 엽니다. 자세한 내용은 Red Hat 지원 문의를 참조하십시오.

4.2.5. 시계 스kew

Ceph 모니터는 쿼럼이 아니며 ceph 상태 세부 명령 출력에 다음과 같은 오류 메시지가 포함되어 있습니다.

mon.a (rank 0) addr 127.0.0.1:6789/0 is down (out of quorum)
mon.a addr 127.0.0.1:6789/0 clock skew 0.08235s > max 0.05s (latency 0.0045s)

또한 Ceph 로그에 다음과 유사한 오류 메시지가 포함됩니다.

2022-05-04 07:28:32.035795 7f806062e700 0 log [WRN] : mon.a 127.0.0.1:6789/0 clock skew 0.14s > max 0.05s
2022-05-04 04:31:25.773235 7f4997663700 0 log [WRN] : message from mon.1 was stamped 0.186257s in the future, clocks not synchronized

<그 Means>

클럭 skew 오류 메시지는 Ceph Monitor의 시계가 동기화되지 않았음을 나타냅니다. Ceph 모니터는 시간 정밀도에 따라 다르며 클럭이 동기화되지 않는 경우 예기치 않게 동작하기 때문에 클럭 동기화가 중요합니다.

mon_clock_drift_allowed 매개변수는 허용되는 클럭 간의 차이를 결정합니다. 기본적으로 이 매개 변수는 0.05초로 설정됩니다.

중요

이전 테스트 없이 mon_clock_drift_allowed 의 기본값을 변경하지 마십시오. 이 값을 변경하면 일반적으로 Ceph Monitor 및 Ceph Storage 클러스터의 안정성에 영향을 줄 수 있습니다.

시계 스kew 오류가 발생하면 구성된 경우 네트워크 문제 또는 chrony Network Time Protocol (NTP) 동기화의 문제가 있습니다. 또한 가상 머신에 배포된 Ceph Monitor에서 시간 동기화가 제대로 작동하지 않습니다.

이 문제를 해결하기 위해

  1. 네트워크가 올바르게 작동하는지 확인합니다. 자세한 내용은 네트워킹 문제 해결을 참조하십시오. NTP에 chrony를 사용하는 경우 자세한 내용은 Basic chrony NTP 문제 해결 섹션을 참조하십시오.
  2. 원격 NTP 서버를 사용하는 경우 네트워크에 자체 chrony NTP 서버를 배포하는 것이 좋습니다. 자세한 내용은 Red Hat Enterprise Linux 8 기본 시스템 설정 구성 의 Chrony Suite를 사용하여 NTP 구성 장을 참조하십시오.
참고

Ceph는 5분마다 시간 동기화를 평가하므로 문제를 수정하고 클럭 오차 메시지를 지우는 사이에 지연이 발생합니다.

4.2.6. Ceph 모니터 저장소가 너무 큽니다.

ceph health 명령은 다음과 유사한 오류 메시지를 반환합니다.

mon.ceph1 store is getting too big! 48031 MB >= 15360 MB -- 62% avail

<그 Means>

Ceph Monitors 저장소는 실제로 항목을 키-값 쌍으로 저장하는 CloudEventsDB 데이터베이스입니다. 데이터베이스에는 클러스터 맵이 포함되어 있으며 기본적으로 /var/lib/ceph/CLUSTER_FSID/mon.HOST_NAME/store.db 에 있습니다.

대규모 모니터 저장소를 쿼리하는 데 시간이 걸릴 수 있습니다. 결과적으로 클라이언트 쿼리에 응답하는 데 Ceph 모니터가 지연될 수 있습니다.

또한 /var/ 파티션이 가득 차면 Ceph Monitor에서 저장소에 쓰기 작업을 수행할 수 없으며 종료됩니다. 이 문제 해결에 대한 자세한 내용은 Ceph Monitor가 쿼럼 상태임을 참조하십시오.

이 문제를 해결하기 위해

  1. 데이터베이스 크기를 확인합니다.

    구문

    du -sch /var/lib/ceph/CLUSTER_FSID/mon.HOST_NAME/store.db/

    클러스터 이름과 ceph-mon 이 실행 중인 호스트의 짧은 호스트 이름을 지정합니다.

    예제

    [root@mon ~]# du -sh  /var/lib/ceph/b341e254-b165-11ed-a564-ac1f6bb26e8c/mon.host01/
    109M	/var/lib/ceph/b341e254-b165-11ed-a564-ac1f6bb26e8c/mon.host01/
    47G     /var/lib/ceph/mon/ceph-ceph1/store.db/
    47G     total

  2. Ceph 모니터 저장소를 압축합니다. 자세한 내용은 Ceph Monitor Store를 참조하십시오.

4.2.7. Ceph Monitor 상태 이해

mon_status 명령은 다음과 같은 Ceph 모니터에 대한 정보를 반환합니다.

  • 상태
  • 랭크
  • 선택 사항
  • 모니터 맵(monmap)

Ceph 모니터가 쿼럼을 형성할 수 있는 경우 ceph 명령줄 유틸리티와 함께 mon_status 를 사용합니다.

Ceph 모니터가 쿼럼을 형성할 수 없지만 ceph-mon 데몬이 실행 중인 경우 관리 소켓을 사용하여 mon_status 를 실행합니다.

mon_status의 출력 예

{
    "name": "mon.3",
    "rank": 2,
    "state": "peon",
    "election_epoch": 96,
    "quorum": [
        1,
        2
    ],
    "outside_quorum": [],
    "extra_probe_peers": [],
    "sync_provider": [],
    "monmap": {
        "epoch": 1,
        "fsid": "d5552d32-9d1d-436c-8db1-ab5fc2c63cd0",
        "modified": "0.000000",
        "created": "0.000000",
        "mons": [
            {
                "rank": 0,
                "name": "mon.1",
                "addr": "172.25.1.10:6789\/0"
            },
            {
                "rank": 1,
                "name": "mon.2",
                "addr": "172.25.1.12:6789\/0"
            },
            {
                "rank": 2,
                "name": "mon.3",
                "addr": "172.25.1.13:6789\/0"
            }
        ]
    }
}

Ceph Monitor 상태

리더
선택 단계에서 Ceph 모니터는 리더를 선택합니다. 리더는 순위가 가장 높은 Ceph Monitor이며 값이 가장 낮은 순위입니다. 위의 예에서 리더는 mon.1 입니다.
peon
peons는 리더가 아닌 쿼럼의 Ceph 모니터입니다. 리더가 실패하면 가장 높은 순위를 가진 펩론이 새로운 리더가됩니다.
probing
다른 Ceph 모니터를 찾고 있는 경우 Ceph 모니터가 검색 상태이기 때문입니다. 예를 들어 Ceph Monitor를 시작한 후에는 Ceph Monitor 맵(monmap)에 지정된 충분한 Ceph Monitor를 찾을 때까지 계속 진행되어 쿼럼을 형성합니다.
electing
Ceph 모니터는 리더를 선택하는 과정에 있는 경우 선택 상태에 있습니다. 일반적으로 이 상태는 빠르게 변경됩니다.
동기화
다른 Ceph 모니터와 동기화되어 쿼럼에 조인하는 경우 Ceph 모니터가 동기화 상태입니다. Ceph Monitor가 작아지면 동기화 프로세스의 속도가 빨라집니다. 따라서 큰 저장소가 있는 경우 동기화에 시간이 더 오래 걸립니다.

추가 리소스

4.2.8. 추가 리소스

Red Hat logoGithubRedditYoutubeTwitter

자세한 정보

평가판, 구매 및 판매

커뮤니티

Red Hat 문서 정보

Red Hat을 사용하는 고객은 신뢰할 수 있는 콘텐츠가 포함된 제품과 서비스를 통해 혁신하고 목표를 달성할 수 있습니다.

보다 포괄적 수용을 위한 오픈 소스 용어 교체

Red Hat은 코드, 문서, 웹 속성에서 문제가 있는 언어를 교체하기 위해 최선을 다하고 있습니다. 자세한 내용은 다음을 참조하세요.Red Hat 블로그.

Red Hat 소개

Red Hat은 기업이 핵심 데이터 센터에서 네트워크 에지에 이르기까지 플랫폼과 환경 전반에서 더 쉽게 작업할 수 있도록 강화된 솔루션을 제공합니다.

© 2024 Red Hat, Inc.