Estamos monitorando um cluster de computação HPC usando uma combinação de Prometheus, Alertmanager e Grafana. Em nossas máquinas, coisas como o preenchimento da memória SWAP até o limite acontecem com frequência e, embora seja útil ver os info
alertas de nível correspondentes no painel de alertas do Grafana, preferimos não enviar os e-mails correspondentes.
Existe uma maneira de silenciar/desativar todos, digamos, alertas de e-mails que tenham gravidade info
no alertmanager.yml
arquivo de configuração?
Os alertas são todos definidos de forma semelhante a este (ajustado dehttps://awesome-prometheus-alerts.grep.to/rules.html):
- alert: HostSwapIsFillingUp
expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
for: 60m
labels:
severity: info
annotations:
summary: Host swap is filling up (instance {{ $labels.instance }})
description: "Swap is filling up (>95%)\n VALUE = {{ $value }}"
e a seção correspondente no alertmanager.yml
arquivo diz
routes:
- match:
severity: 'warning'
repeat_interval: 24h
continue: true
- match:
severity: 'info'
repeat_interval: 24h
continue: true
receiver: dropped
receivers:
- name: 'admin-mails'
email_configs:
- to: 'admins@DOMAIN'
- name: 'dropped'
email_configs:
- to: 'admins@DOMAIN'
Existe a possibilidade de garantir que os info
alertas de nível nunca causem e-mails e, ao mesmo tempo, ainda os "disparem", para que o Grafana os exiba?
Responder1
Depois de algumas tentativas e erros, o seguinte parece funcionar:
routes:
- match:
severity: 'warning'
repeat_interval: 24h
continue: true
- match:
severity: 'info'
repeat_interval: 24h
continue: true
receiver: dropped
receivers:
- name: 'admin-mails'
email_configs:
- to: 'admins@DOMAIN'
- name: 'dropped'
Então a ideia é simplesmente desconfigurar o receptor. Com isso, nenhum e-mail é gerado, mas os alertas continuam sendo mostrados no Grafana.
Deixarei isso aqui caso alguém encontre a mesma dúvida.