
我有幾台由 munin 監控的伺服器,選定的其中一台伺服器經常會出現讀取資料的短暫故障。這讓我收到了兩封電子郵件,一封告訴我所有的價值都是未知的,第二封五分鐘後讓我知道一切都好。
據我所知,munin 正在按此處設計的方式運行,但我想知道是否有任何方法可以延遲在一個更新周期內發送初始「未知」警報,這樣就不會報告瞬態未知數?我目前的所有設定正在實現的是訓練我忽略警告郵件。
如果做不到這一點,是否有任何方法可以完全停用發送「未知」警報及其相應的恢復警報?
答案1
我並沒有真正使用 Munin,但據我所知,unknown_limit
可以為項目/插件設置一個設置,它定義在將值設置為“未知”之前應該發生多少次連續不成功的讀取。
基於 Munin::LimitsOld 模組,它預設為 3,我認為您應該嘗試設定或增加這個數字。
我已經在 Munin 1.4.5 上檢查過了。
答案2
我透過讓 munin 通知(不是直接通知最終用戶,而是透過 NSCA 通知 NAGIOS)並讓 NAGIOS 處理通知來實現這一點。這意味著我可以使用 NAGIOS(更複雜的)控制通知延遲、頻率、升級等。是的,NAGIOS 作為一個通知引擎就相當重量級了,但是您也可以將它用於定性(而不是定量)監控。
答案3
請記住,使用開源工具的一大好處是您可以查看原始程式碼以準確了解它們的功能(如果您不喜歡它,則可以更改其行為)。快速瀏覽 LimitsOld.pm 顯示 Gábor 的建議是正確的方法 -unknown_limit 可以基於每個服務或全域設置,並出現在 Munin 1.4.4 左右(請參閱http://munin-monitoring.org/ticket/828)。