우리는 Prometheus, Alertmanager 및 Grafana의 조합을 사용하여 HPC 컴퓨팅 클러스터를 모니터링하고 있습니다. 우리 컴퓨터에서는 기본적으로 한도까지 채워지는 SWAP 메모리와 같은 일이 자주 발생하며 Grafana 경고 대시보드에서 해당 수준 경고를 보는 것이 유용하지만 info
해당 이메일을 보내지 않는 것이 좋습니다.
info
구성 파일 에 심각도가 있는 경고 이메일 등을 모두 음소거/비활성화하는 방법이 있습니까 alertmanager.yml
?
경고는 모두 이와 유사하게 정의됩니다(에서 조정됨).https://awesome-prometheus-alerts.grep.to/rules.html):
- alert: HostSwapIsFillingUp
expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
for: 60m
labels:
severity: info
annotations:
summary: Host swap is filling up (instance {{ $labels.instance }})
description: "Swap is filling up (>95%)\n VALUE = {{ $value }}"
파일 의 해당 섹션은 alertmanager.yml
다음 과 같습니다.
routes:
- match:
severity: 'warning'
repeat_interval: 24h
continue: true
- match:
severity: 'info'
repeat_interval: 24h
continue: true
receiver: dropped
receivers:
- name: 'admin-mails'
email_configs:
- to: 'admins@DOMAIN'
- name: 'dropped'
email_configs:
- to: 'admins@DOMAIN'
info
레벨 경고가 이메일을 유발하지 않는 동시에 여전히 "발동"되도록 하여 Grafana가 이를 표시하도록 할 수 있습니까 ?
답변1
몇 번의 시행착오 끝에 다음과 같은 방법이 성공하는 것 같습니다.
routes:
- match:
severity: 'warning'
repeat_interval: 24h
continue: true
- match:
severity: 'info'
repeat_interval: 24h
continue: true
receiver: dropped
receivers:
- name: 'admin-mails'
email_configs:
- to: 'admins@DOMAIN'
- name: 'dropped'
따라서 아이디어는 단순히 수신기를 구성 해제하는 것입니다. 이를 통해 더 이상 이메일이 생성되지 않지만 경고는 Grafana에 계속 표시됩니다.
다른 사람이 같은 질문에 직면할 경우를 대비하여 여기에 남겨 두겠습니다.