4.2. 가장 일반적인 Ceph Monitor 오류
다음 표에는 Ceph 상태 세부 정보
명령에서 반환하거나 Ceph 로그에 포함된 가장 일반적인 오류 메시지가 나열되어 있습니다. 테이블에서는 오류를 설명하는 해당 섹션에 대한 링크를 제공하고 문제를 해결하는 특정 절차를 가리킵니다.
4.2.1. 사전 요구 사항
- 실행 중인 Red Hat Ceph Storage 클러스터.
4.2.2. Ceph Monitor 오류 메시지
일반적인 Ceph Monitor 오류 메시지 테이블과 잠재적인 수정 사항.
오류 메시지 | 보기 |
---|---|
| |
| |
| |
|
4.2.3. Ceph 로그의 일반적인 Ceph Monitor 오류 메시지
Ceph 로그에 있는 일반적인 Ceph Monitor 오류 메시지의 표와 잠재적인 수정 사항에 대한 링크입니다.
오류 메시지 | 로그 파일 | 보기 |
---|---|---|
| 기본 클러스터 로그 | |
| 기본 클러스터 로그 | |
| 로그 모니터링 | |
| 로그 모니터링 | |
| 로그 모니터링 |
4.2.4. Ceph Monitor가 쿼럼에 없습니다
하나 이상의 Ceph 모니터가 down
으로 표시되지만 다른 Ceph 모니터는 여전히 쿼럼을 구성할 수 있습니다. 또한 ceph health detail
명령은 다음과 유사한 오류 메시지를 반환합니다.
HEALTH_WARN 1 mons down, quorum 1,2 mon.b,mon.c mon.a (rank 0) addr 127.0.0.1:6789/0 is down (out of quorum)
이 의미
Ceph는 다양한 이유로 인해 Ceph 모니터를 다운
된 상태로 표시합니다.
ceph-mon
데몬이 실행 중이 아니면 손상된 저장소가 있거나 다른 오류가 있어 데몬이 시작되지 않을 수 있습니다. 또한 /var/
파티션이 가득 찰 수 있습니다. 결과적으로 ceph-mon
은 기본적으로 /var/lib/ceph/mon-SHORT_HOST_NAME/store.db
에 있는 저장소에 대한 작업을 수행할 수 없습니다.
ceph-mon
데몬이 실행 중이지만 Ceph Monitor가 쿼럼 상태가 되어 down
으로 표시되면 문제가 Ceph Monitor 상태에 따라 달라집니다.
-
Ceph Monitor가 예상보다 긴 프로브 상태인 경우 다른 Ceph 모니터를 찾을 수 없습니다. 이 문제는 네트워킹 문제 또는 Ceph Monitor에 오래된 Ceph 모니터 맵(
monmap
)이 있을 수 있으며 잘못된 IP 주소의 다른 Ceph 모니터에 연결하려고 할 수 있습니다. 또는monmap
이 최신 버전인 경우 Ceph Monitor의 시계가 동기화되지 않을 수 있습니다. - Ceph Monitor가 예상보다 긴 경우 Ceph Monitor의 클록이 동기화되지 않을 수 있습니다.
- Ceph Monitor가 동기화 에서 선택으로 해당 상태를 변경하면 클러스터 상태가 진행 중입니다. 즉, 동기화 프로세스에서 처리할 수 있는 것보다 더 빨리 새 맵을 생성합니다.
- Ceph 모니터 자체를 리더 또는 Pe on 으로 표시하는 경우에는 쿼럼에 있는 것으로 간주되지만 나머지 클러스터는 확실하지 않은 것으로 간주합니다. 이 문제는 클럭 동기화 실패로 인해 발생할 수 있습니다.
이 문제를 해결하려면
ceph-mon 데몬이
실행 중인지 확인합니다. 그렇지 않은 경우 시작합니다.[root@mon ~]# systemctl status ceph-mon@HOST_NAME [root@mon ~]# systemctl start ceph-mon@HOST_NAME
HOST_NAME
을 데몬이 실행 중인 호스트의 짧은 이름으로 바꿉니다. 확실하지 않은 경우hostname -s
명령을 사용합니다.-
ceph-mon을 시작할 수 없는 경우
ceph-mon
데몬의 단계를 실행할 수 없습니다. -
ceph-mon
데몬을 시작할 수는 있지만down
으로 표시되면ceph-mon
데몬이 실행 중이지만 '아래로'로 표시된 단계를 따르십시오.
ceph-mon
Daemon을 시작할 수 없음
-
기본적으로
/var/log/ceph/ceph-mon에 있는 해당 Ceph Monitor 로그를 확인합니다.HOST_NAME.log
. 로그에 다음과 유사한 오류 메시지가 포함된 경우 Ceph Monitor에 손상된 저장소가 있을 수 있습니다.
Corruption: error in middle of record Corruption: 1 missing files; e.g.: /var/lib/ceph/mon/mon.0/store.db/1234567.ldb
이 문제를 해결하려면 Ceph 모니터를 교체합니다. 실패한 모니터 교체를 참조하십시오.
로그에 다음과 유사한 오류 메시지가 포함된 경우
/var/
파티션이 가득 찰 수 있습니다./var/
에서 불필요한 데이터를 삭제합니다.Caught signal (Bus error)
중요Monitor 디렉토리에서 수동으로 데이터를 삭제하지 마십시오. 대신
ceph-monstore-tool
을 사용하여 압축합니다. 자세한 내용은 Ceph Monitor 저장소 를 참조하십시오.- 다른 오류 메시지가 표시되면 지원 티켓을 엽니다. 자세한 내용은 Red Hat 지원 문의를 참조하십시오.
ceph-mon
Daemon은 실행 중이지만 S still marked as down
쿼럼이 없는 Ceph Monitor 호스트에서
mon_status
명령을 사용하여 상태를 확인합니다.[root@mon ~]# ceph daemon ID mon_status
ID
를 Ceph Monitor의 ID로 바꿉니다. 예를 들면 다음과 같습니다.[root@mon ~]# ceph daemon mon.a mon_status
상태를 조사하는 경우
mon_status
출력에서 다른 Ceph 모니터의 위치를 확인합니다.-
주소가 올바르지 않으면 Ceph 모니터에 잘못된 Ceph 모니터 맵(기타 맵)
이 있습니다
. 이 문제를 해결하려면 Injecting a Ceph Monitor map 을 참조하십시오. - 주소가 올바르면 Ceph Monitor 시계가 동기화되었는지 확인합니다. 자세한 내용은 Clock skew 를 참조하십시오. 또한 네트워킹 문제를 해결하려면 네트워킹 문제 해결을 참조하십시오.
-
주소가 올바르지 않으면 Ceph 모니터에 잘못된 Ceph 모니터 맵(기타 맵)
- 상태가 선택되는 경우 Ceph Monitor 시계가 동기화되었는지 확인합니다. 자세한 내용은 Clock skew 를 참조하십시오.
- 상태가 선택에서 동기화 로 변경되면 지원 티켓을 엽니다. 자세한 내용은 Red Hat 지원 문의를 참조하십시오.
- Ceph Monitor가 리더 또는 Pe on인 경우 Ceph Monitor 시계가 동기화되었는지 확인합니다. 자세한 내용은 Clock skew 를 참조하십시오. 클록을 동기화하면 지원 티켓을 열면 문제가 해결되지 않습니다. 자세한 내용은 Red Hat 지원 문의를 참조하십시오.
추가 리소스
- Ceph Monitor 상태 이해를참조하십시오.
- Red Hat Ceph Storage 4 관리 가이드 의 인스턴스별 Ceph 데몬 시작, 중지, 재시작
- Red Hat Ceph Storage 4 관리 가이드 의 Ceph 관리 소켓 사용 섹션
4.2.5. 시간 오차
Ceph Monitor가 쿼럼이 아니므로 ceph 상태 세부 정보
명령 출력에 다음과 유사한 오류 메시지가 포함되어 있습니다.
mon.a (rank 0) addr 127.0.0.1:6789/0 is down (out of quorum) mon.a addr 127.0.0.1:6789/0 clock skew 0.08235s > max 0.05s (latency 0.0045s)
또한 Ceph 로그에는 다음과 유사한 오류 메시지가 포함되어 있습니다.
2015-06-04 07:28:32.035795 7f806062e700 0 log [WRN] : mon.a 127.0.0.1:6789/0 clock skew 0.14s > max 0.05s 2015-06-04 04:31:25.773235 7f4997663700 0 log [WRN] : message from mon.1 was stamped 0.186257s in the future, clocks not synchronized
이 의미
clock skew
오류 메시지는 Ceph Monitors의 시계가 동기화되지 않았음을 나타냅니다. Ceph 모니터는 시간 정확도에 의존하고 클록이 동기화되지 않는 경우 예측할 수 없는 방식으로 작동하기 때문에 클럭 동기화가 중요합니다.
mon_clock_drift_allowed
매개 변수는 허용된 클록 간의 불일치를 결정합니다. 기본적으로 이 매개변수는 0.05초로 설정됩니다.
이전 테스트 없이는 기본값 mon_clock_drift_allowed
를 변경하지 마십시오. 이 값을 변경하면 일반적으로 Ceph 모니터 및 Ceph 스토리지 클러스터의 안정성에 영향을 미칠 수 있습니다.
클럭 스큐
오류의 가능한 원인으로는 네트워크 문제 또는 이를 구성하는 경우 NTP(Network Time Protocol) 동기화 문제가 있습니다. 또한 가상 시스템에 배포된 Ceph 모니터에서는 시간 동기화가 제대로 작동하지 않습니다.
이 문제를 해결하려면
네트워크가 올바르게 작동하는지 확인합니다. 자세한 내용은 네트워킹 문제 해결을 참조하십시오. 특히 NTP를 사용하는 경우 NTP 클라이언트의 문제를 해결합니다.
- NTP에 chrony를 사용하는 경우 자세한 내용은 Basic chrony NTP 문제 해결 섹션을 참조하십시오.
-
ntpd
를 사용하는 경우 기본 NTP 문제 해결을 참조하십시오.
원격 NTP 서버를 사용하는 경우 자체 NTP 서버를 네트워크에 배포하는 것이 좋습니다.
- 자세한 내용은 Red Hat Enterprise Linux 8 의 기본 시스템 설정 구성의 NTP 설정에 Chrony 제품군 사용 장을 참조하십시오.
- Red Hat Enterprise Linux 7에 대한 시스템 관리자 가이드의 ntpd를 사용하여 NTP 구성 장을 참조하십시오.
Ceph는 5분마다 시간 동기화를 평가하므로 문제를 해결하고 클럭 스큐
메시지를 지울 때까지 지연이 발생합니다.
4.2.6. Ceph Monitor 저장소가 너무 커졌습니다.
ceph 상태
명령은 다음과 유사한 오류 메시지를 반환합니다.
mon.ceph1 store is getting too big! 48031 MB >= 15360 MB -- 62% avail
이 의미
Ceph 모니터 저장소는 실제로 항목을 키-값 쌍으로 저장하는 LevelDB 데이터베이스입니다. 데이터베이스에는 클러스터 맵이 포함되어 있으며 기본적으로 /var/lib/ceph/mon/CLUSTER_NAME -SHORT_HOST_NAME/store.db
에 있습니다.
대형 모니터 저장소를 쿼리하는 데 시간이 걸릴 수 있습니다. 결과적으로 Ceph Monitor는 클라이언트 쿼리에 응답하는 데 지연될 수 있습니다.
또한 /var/
파티션이 가득 찬 경우 Ceph 모니터는 저장소에 쓰기 작업을 수행하고 종료할 수 없습니다. 이 문제 해결에 대한 자세한 내용은 Ceph Monitor가 쿼럼 상태가 아닙니다.
이 문제를 해결하려면
데이터베이스의 크기를 확인합니다.
du -sch /var/lib/ceph/mon/CLUSTER_NAME-SHORT_HOST_NAME/store.db
클러스터의 이름과
ceph-mon
이 실행 중인 호스트의 짧은 호스트 이름을 지정합니다.예제
# du -sch /var/lib/ceph/mon/ceph-host1/store.db 47G /var/lib/ceph/mon/ceph-ceph1/store.db/ 47G total
- Ceph 모니터 저장소의 압축. 자세한 내용은 Ceph 모니터 저장소에 대한 자세한 내용은 를 참조하십시오.
추가 리소스
4.2.7. Ceph Monitor 상태 이해
mon_status
명령은 다음과 같은 Ceph 모니터에 대한 정보를 반환합니다.
- 상태
- 순위
- 선택 기간
-
모니터 맵 (
monmap
)
Ceph 모니터가 쿼럼을 구성할 수 있는 경우 ceph
명령줄 유틸리티와 함께 mon_status
를 사용합니다.
Ceph Monitor에서 쿼럼을 구성할 수 없지만 ceph-mon 데몬이
실행 중인 경우 관리 소켓을 사용하여 mon_status
를 실행합니다.
mon_status
의 출력 예
{ "name": "mon.3", "rank": 2, "state": "peon", "election_epoch": 96, "quorum": [ 1, 2 ], "outside_quorum": [], "extra_probe_peers": [], "sync_provider": [], "monmap": { "epoch": 1, "fsid": "d5552d32-9d1d-436c-8db1-ab5fc2c63cd0", "modified": "0.000000", "created": "0.000000", "mons": [ { "rank": 0, "name": "mon.1", "addr": "172.25.1.10:6789\/0" }, { "rank": 1, "name": "mon.2", "addr": "172.25.1.12:6789\/0" }, { "rank": 2, "name": "mon.3", "addr": "172.25.1.13:6789\/0" } ] } }
Ceph 모니터 상태
- 리더
-
선택 단계에서 Ceph 모니터가 리더로 선택되고 있습니다. 순위가 가장 높은 Ceph 모니터는 순위가 가장 낮은 Ceph 모니터입니다. 위의 예에서 리더는
mon.1
입니다. - Peon
- Peons는 리더가 아닌 쿼럼의 Ceph 모니터입니다. 리더가 실패하면 순위가 가장 높은 PEon이 새로운 리더가 됩니다.
- Probing
-
다른 Ceph 모니터를 찾는 경우 Ceph Monitor가 검사 상태에 있습니다. 예를 들어 Ceph 모니터를 시작한 후 Ceph 모니터 맵(
monmap
)에 지정된 Ceph 모니터를 충분히 찾을 때까지 쿼럼을 형성합니다. - 선택
- 리더를 선택하는 프로세스인 경우 Ceph 모니터가 선택 상태에 있습니다. 일반적으로 이 상태는 빠르게 변경됩니다.
- 동기화 중
- 다른 Ceph 모니터와 동기화하여 쿼럼에 가입하는 경우 Ceph Monitor가 동기화 상태에 있습니다. Ceph 모니터 저장소가 작을수록 동기화 프로세스가 빨라집니다. 따라서 큰 저장소가 있는 경우 동기화에 시간이 오래 걸립니다.
추가 리소스
- 자세한 내용은 Red Hat Ceph Storage 4 관리 가이드의 Ceph 관리 소켓 사용 섹션을 참조하십시오.
4.2.8. 추가 리소스
- Red Hat Ceph 스토리지 문제 해결 가이드의 4.2.2절. “Ceph Monitor 오류 메시지” 을 참조하십시오.
- Red Hat Ceph 스토리지 문제 해결 가이드의 4.2.3절. “Ceph 로그의 일반적인 Ceph Monitor 오류 메시지” 을 참조하십시오.