심각도에 따라 Prometheus Alertmanager에 대한 이메일 비활성화

심각도에 따라 Prometheus Alertmanager에 대한 이메일 비활성화

우리는 Prometheus, Alertmanager 및 Grafana의 조합을 사용하여 HPC 컴퓨팅 클러스터를 모니터링하고 있습니다. 우리 컴퓨터에서는 기본적으로 한도까지 채워지는 SWAP 메모리와 같은 일이 자주 발생하며 Grafana 경고 대시보드에서 해당 수준 경고를 보는 것이 유용하지만 info해당 이메일을 보내지 않는 것이 좋습니다.

info구성 파일 에 심각도가 있는 경고 이메일 등을 모두 음소거/비활성화하는 방법이 있습니까 alertmanager.yml?

경고는 모두 이와 유사하게 정의됩니다(에서 조정됨).https://awesome-prometheus-alerts.grep.to/rules.html):

  - alert: HostSwapIsFillingUp
    expr: (1 - (node_memory_SwapFree_bytes / node_memory_SwapTotal_bytes)) * 100 > 95
    for: 60m
    labels:
      severity: info
    annotations:
      summary: Host swap is filling up (instance {{ $labels.instance }})
      description: "Swap is filling up (>95%)\n  VALUE = {{ $value }}"

파일 의 해당 섹션은 alertmanager.yml다음 과 같습니다.

  routes:
    - match:
        severity: 'warning'
      repeat_interval: 24h
      continue: true
    - match:
        severity: 'info'
      repeat_interval: 24h
      continue: true
      receiver: dropped

receivers:
  - name: 'admin-mails'
    email_configs:
      - to: 'admins@DOMAIN'
  - name: 'dropped'
    email_configs:
      - to: 'admins@DOMAIN'

info레벨 경고가 이메일을 유발하지 않는 동시에 여전히 "발동"되도록 하여 Grafana가 이를 표시하도록 할 수 있습니까 ?

답변1

몇 번의 시행착오 끝에 다음과 같은 방법이 성공하는 것 같습니다.

  routes:
    - match:
        severity: 'warning'
      repeat_interval: 24h
      continue: true
    - match:
        severity: 'info'
      repeat_interval: 24h
      continue: true
      receiver: dropped

receivers:
  - name: 'admin-mails'
    email_configs:
      - to: 'admins@DOMAIN'
  - name: 'dropped'

따라서 아이디어는 단순히 수신기를 구성 해제하는 것입니다. 이를 통해 더 이상 이메일이 생성되지 않지만 경고는 Grafana에 계속 표시됩니다.

다른 사람이 같은 질문에 직면할 경우를 대비하여 여기에 남겨 두겠습니다.

관련 정보