부록 B. Ceph 클러스터의 상태 메시지
Red Hat Ceph Storage 클러스터에서 발생할 수 있는 제한된 상태 메시지 세트가 있습니다. 이러한 항목은 고유 식별자가 있는 상태 점검으로 정의됩니다. 식별자는 툴에서 상태 점검을 감지하여 의미를 반영하는 방식으로 제공할 수 있도록 하기 위한 의사 사람이 읽을 수 있는 문자열입니다.
상태 코드 | 설명 |
---|---|
| 이전 버전의 Ceph가 모든 데몬에서 실행 중인 경우 warn입니다. 여러 버전이 감지되면 상태 오류가 생성됩니다. |
| 현재 하나 이상의 Ceph Monitor 데몬이 다운되어 있습니다. |
|
|
|
|
| 하나 이상의 Ceph 모니터가 디스크 공간에서 부족합니다. |
| 하나 이상의 Ceph 모니터는 디스크 공간에서 매우 낮습니다. |
| 하나 이상의 Ceph 모니터의 데이터베이스 크기는 매우 큽니다. |
|
하나 이상의 클라이언트 또는 데몬이 Ceph 모니터에 다시 연결할 때 |
|
|
상태 코드 | 설명 |
---|---|
| 모든 Ceph Manager 데몬이 현재 다운되어 있습니다. |
| 활성화된 Ceph Manager 모듈이 종속성 확인에 실패했습니다. |
| Ceph Manager 모듈에 예기치 않은 오류가 발생했습니다. 일반적으로 처리되지 않은 예외가 모듈의 serve 함수에서 발생했음을 의미합니다. |
상태 코드 | 설명 |
---|---|
| 하나 이상의 OSD가 down으로 표시됩니다. |
| 특정 CRUSH 하위 트리 내의 모든 OSD는 (예: 호스트의 모든 OSD)로 표시됩니다. 예를 들어 OSD_HOST_DOWN 및 OSD_ROOT_DOWN |
|
OSD는 CRUSH 맵 계층에서 참조되지만 존재하지 않습니다. |
|
nearfull,backfillfull, full 또는 failsafefull 에 대한 사용률 임계값은 오름차순이 아닙니다. |
|
하나 이상의 OSD가 전체 임계값을 초과하여 스토리지 클러스터가 쓰기를 서비스하지 못하도록 합니다. 작은 마진 |
| 하나 이상의 OSD가 backfillfull 임계값을 초과하여 데이터가 이 장치에 재조정되지 않도록 합니다. |
| 하나 이상의 OSD가 거의 전체 임계값을 초과했습니다. |
|
하나 이상의 스토리지 클러스터 플래그가 설정되어 있습니다. 이러한 플래그에는 full,pauserd,pausewr,noup,nodown,no out,nobackfill,norecover,norebalance,noscrub,nodeep_scrub, notieragent 가 포함됩니다. 전체 플래그를 제외하고 |
| 하나 이상의 OSD 또는 CRUSH에는 관심 있는 플래그가 설정되어 있습니다. 이 플래그에는 noup,nodown, noout 이 포함됩니다. |
| CRUSH 맵은 매우 오래된 설정을 사용하므로 업데이트해야 합니다. |
|
CRUSH 맵은 스트리트 버킷에 대한 중간 가중치 값을 계산하기 위한 최적화되지 않은 이전 방법을 사용하고 있습니다. |
|
하나 이상의 캐시 풀은 사용률을 추적하기 위해 적중으로 구성되지 않아 계층화 에이전트가 콜드 개체를 식별하지 못하고 캐시에서 제거되지 않습니다. |
|
|
|
하나 이상의 풀이 할당량에 도달했으며 더 이상 쓰기를 허용하지 않습니다. |
|
BlueStore 백엔드를 사용하는 하나 이상의 OSD는 db 파티션이 할당되지만 해당 공간은 채워지기 때문에 메타데이터가 일반적인 느린 장치에 "회전"됩니다. |
| 이 출력은 BDEV_DB free,BDEV_SLOW free 및 available_from_bluestore 의 세 가지 값을 제공합니다. |
|
BlueFS(BlueStore File System)가 사용 가능한 여유 공간에 낮은 상태로 실행되고 있고 |
| BlueStore가 작동하므로 기본 스토리지의 여유 공간이 조각화됩니다. 이는 정상적이고 피할 수 없지만 과도한 조각화는 느려집니다. |
|
BlueStore는 풀별로 내부 사용량 통계를 추적하고 하나 이상의 OSD에는 BlueStore 볼륨이 있습니다. |
|
BlueStore는 풀별로 omap 공간 사용률을 추적합니다. |
|
BlueStore는 PG별 omap 공간 사용률을 추적합니다. |
| BlueStore를 사용하는 하나 이상의 OSD는 물리적 장치의 크기와 크기를 추적하는 메타데이터 간의 내부 불일치를 갖습니다. |
|
하나 이상의 OSD가 BlueStore 압축 플러그인을 로드할 수 없습니다. 이는 손상된 설치로 인해 |
| BlueStore를 사용하는 하나 이상의 OSD는 기본 장치에서 잘못된 읽기 오류를 감지합니다. BlueStore는 디스크 읽기를 재시도하여 이러한 오류에서 복구되었습니다. |
상태 코드 | 설명 |
---|---|
|
경고 임계값이 |
|
하나 이상의 장치가 곧 실패할 것으로 예상되며 |
|
너무 많은 장치가 곧 실패할 것으로 예상되고 |
상태 코드 | 설명 |
---|---|
| 데이터 가용성이 감소되므로 스토리지 클러스터가 클러스터의 일부 데이터에 대한 잠재적인 읽기 또는 쓰기 요청을 서비스할 수 없습니다. |
| 일부 데이터에 대해 데이터 중복성이 감소합니다. 즉, 스토리지 클러스터에 복제 풀 또는 코드 조각 삭제에 필요한 복제본 수가 없습니다. |
|
특히 하나 이상의 PG가 |
|
특히 하나 이상의 PG에 |
|
데이터 스크러블링은 스토리지 클러스터의 데이터 일관성에 대한 일부 문제를 발견했으며, 특히 하나 이상의 PG가 일관되지 않거나 |
| 최근 OSD 스크러브는 불일치를 발견했습니다. |
| 읽기 오류가 발생하고 다른 복제본을 사용할 수 있으면 클라이언트가 개체 데이터를 가져올 수 있도록 오류를 즉시 복구하는 데 사용됩니다. |
|
하나 이상의 풀에는 |
|
캐시 계층 풀은 거의 가득 차 있습니다. |
|
스토리지 클러스터에서 사용 중인 PG 수는 OSD |
|
하나 이상의 풀은 |
|
하나 이상의 풀에는 현재 풀에 저장된 데이터 양에 따라 PG가 더 있어야 합니다. |
|
스토리지 클러스터에서 사용 중인 PG 수는 OSD당 |
|
하나 이상의 풀에는 현재 풀에 저장된 데이터 양에 따라 PG가 더 있어야 합니다. |
|
하나 이상의 풀에는 예상되는 풀 크기를 추정하도록 |
|
하나 이상의 풀에는 예상되는 풀 크기를 추정하도록 |
|
스토리지 클러스터의 OSD 수는 |
|
하나 이상의 풀은 |
|
하나 이상의 풀은 전체 스토리지 클러스터 평균보다 훨씬 높은 PG당 평균 오브젝트 수를 갖습니다. 특정 임계값은 |
|
하나 이상의 오브젝트가 포함되어 있지만 특정 애플리케이션에서 사용할 수 있도록 태그가 지정되지 않은 풀이 있습니다. |
|
하나 이상의 풀이 할당량에 도달했습니다. 이 오류 조건을 트리거하는 임계값은 |
|
하나 이상의 풀은 구성된 완전성 임계값에 도달하는 것입니다. |
| 스토리지 클러스터에 있는 하나 이상의 오브젝트가 스토리지 클러스터가 저장하려는 노드에 저장되지 않습니다. 이는 최근 스토리지 클러스터 변경 사항이 아직 완료되지 않았기 때문에 데이터 마이그레이션이 완료되었음을 나타냅니다. |
| 스토리지 클러스터에서 하나 이상의 오브젝트를 찾을 수 없습니다. 특히 OSD는 개체의 새 복사본 또는 업데이트된 복사본이 있어야 한다는 것을 알지만 해당 오브젝트 버전의 사본은 현재 온라인 상태인 OSD에서 발견되지 않았습니다. |
| 하나 이상의 OSD 또는 모니터 요청을 처리하는 데 시간이 오래 걸립니다. 이는 극단적인 로드, 느린 스토리지 장치 또는 소프트웨어 버그의 표시일 수 있습니다. |
|
최근에 하나 이상의 PG가 제거되지 않았습니다. PGS는 일반적으로 |
|
최근에 하나 이상의 PG가 스크럽되지 않았습니다. |
| 하나 이상의 PG에 대한 스냅샷 트리트 큐가 구성된 경고 임계값을 초과했습니다. 이는 최근에 매우 많은 수의 스냅샷이 삭제되었거나 새 스냅샷 삭제 속도를 따라잡을 수 있을 만큼 스냅샷을 빠르게 트리밍할 수 없음을 나타냅니다. |
상태 코드 | 설명 |
---|---|
| 최근에 하나 이상의 Ceph 데몬이 충돌했으며 관리자가 아직 충돌하지 않았습니다. |
| Telemetry가 활성화되어 있지만 원격 분석 보고서의 내용은 그 이후 변경되어 Telemetry 보고서가 전송되지 않습니다. |
|
하나 이상의 인증 사용자에게는 모니터에서 구문 분석할 수 없는 기능이 있습니다. |
|
|
|
대시보드 디버그 모드가 활성화되어 있습니다. 즉, REST API 요청을 처리하는 동안 오류가 발생하면 HTTP 오류 응답에 Python 역추적이 포함됩니다. |