5.3. Alertmanager 구성
Alertmanager는 들어오는 경고를 관리합니다. 여기에는 이메일, PagerDuty 및 HipChat과 같은 방법을 통해 알림 전송이 포함됩니다.
OpenShift Container Platform Monitoring Alertmanager 클러스터의 기본 구성은 다음과 같습니다.
global: resolve_timeout: 5m route: group_wait: 30s group_interval: 5m repeat_interval: 12h receiver: default routes: - match: alertname: DeadMansSwitch repeat_interval: 5m receiver: deadmansswitch receivers: - name: default - name: deadmansswitch
이 구성은 openshift_cluster_monitoring _operator
를 사용하여 덮어쓸 수 있습니다.
역할의 Ansible 변수 openshift_cluster_monitoring_operator_alertmanager_
config
다음 예제에서는 알림을 위해 PagerDuty 를 구성합니다. service_key
를 검색하는 방법을 알아보려면 Alertmanager 에 대한 PagerDuty 문서를 참조하십시오.
openshift_cluster_monitoring_operator_alertmanager_config: |+ global: resolve_timeout: 5m route: group_wait: 30s group_interval: 5m repeat_interval: 12h receiver: default routes: - match: alertname: DeadMansSwitch repeat_interval: 5m receiver: deadmansswitch - match: service: example-app routes: - match: severity: critical receiver: team-frontend-page receivers: - name: default - name: deadmansswitch - name: team-frontend-page pagerduty_configs: - service_key: "<key>"
하위 경로는 critical
의 심각도가 있는 경고에서만 일치하고 team-frontend-page
라는 수신자를 사용하여 전송합니다. 이름에서 알 수 있듯이 중요한 경고에 대해 다른 사람을 호출해야 합니다. 다양한 경고 수신자를 통한 경고 구성은 Alertmanager 설정을 참조하십시오.
5.3.1. 배달된 사람의 스위치
OpenShift Container Platform 모니터링에는 모니터링 인프라를 사용할 수 있도록 잘못된 버전의 스위치가 포함되어 있습니다.
배달 못 한 사람의 스위치는 항상 트리거되는 간단한 Prometheus 경고 규칙입니다. Alertmanager는 배달된 사람의 스위치에 대한 알림을 지속적으로 이 기능을 지원하는 알림 프로바이더로 보냅니다. 또한 Alertmanager와 알림 프로바이더 간의 통신이 작동하는지 확인합니다.
이 메커니즘은 모니터링 시스템 자체가 중단될 때 알림을 발행하도록 PagerDuty에서 지원합니다. 자세한 내용은 아래 Dead man의 switch PagerDuty 를 참조하십시오.