무닌 알림 지연

무닌 알림 지연

munin으로 모니터링되는 서버가 몇 대 있는데, 선택한 장치 중 하나에서 데이터를 읽는 데 일시적인 오류가 발생하는 경우가 꽤 자주 발생합니다. 그러면 두 개의 이메일이 도착합니다. 하나는 모든 값을 알 수 없다는 내용이고 두 번째는 5분 후에 모든 것이 정상이라는 내용입니다.

내가 알 수 있는 한, munin은 여기 설계된 대로 작동하고 있지만, 한 업데이트 주기 동안 초기 '알 수 없음' 경고 전송을 지연하여 일시적인 알 수 없는 항목이 보고되지 않도록 할 수 있는 방법이 있는지 알고 싶습니다. 현재 설정에서 달성한 것은 경고 메일을 무시하도록 교육하는 것뿐입니다.

실패할 경우 '알 수 없는' 경고와 해당 복구 경고 전송을 모두 비활성화할 수 있는 방법이 있습니까?

답변1

나는 실제로 Munin을 사용하지 않지만 unknown_limit값을 "알 수 없음"으로 설정하기 전에 연속해서 실패한 판독 횟수를 정의하는 항목/플러그인에 대한 설정을 설정할 수 있음을 알 수 있습니다.

Munin::LimitsOld 모듈에 따르면 기본값은 3입니다. 이 숫자를 설정하거나 늘려야 한다고 생각합니다.

Munin 1.4.5에서 이것을 확인했습니다.

답변2

munin이 최종 사용자에게 직접 알리는 것이 아니라 NSCA를 통해 NAGIOS에 알리고 NAGIOS가 알림을 처리하도록 하여 이를 달성합니다. 이는 알림 지연, 빈도, 에스컬레이션 등에 대해 NAGIOS의 (훨씬 더 정교한) 제어를 사용할 수 있음을 의미합니다. 예, NAGIOS는 알림 엔진이라는 점에서 상당히 무겁지만 정량적 모니터링이 아닌 정성적 모니터링에도 사용할 수 있습니다.

답변3

오픈 소스 도구 사용의 가장 큰 이점 중 하나는 소스를 보고 해당 도구가 수행하는 작업을 정확히 확인할 수 있다는 것입니다(그리고 마음에 들지 않으면 동작을 변경할 수 있습니다). LimitsOld.pm을 빠르게 살펴보면 Gábor의 제안이 올바른 접근 방식임을 알 수 있습니다. Unknown_limit는 서비스별로 또는 전역적으로 설정할 수 있으며 Munin 1.4.4 정도에 나타났습니다(참조).http://munin-monitoring.org/ticket/828).

관련 정보