
私は Munin で監視しているサーバーをいくつか持っていますが、選択したユニットの 1 つでデータの読み取りに一時的な障害が発生することがかなり頻繁にあります。その場合、2 通のメールが届きます。1 通目はすべての値が不明であることを知らせるメール、2 通目は 5 分後に、結局すべて正常であることを知らせるメールです。
私の知る限り、munin はここで設計どおりに機能していますが、一時的な不明が報告されないように、最初の「不明」アラートの送信を 1 つの更新サイクルだけ遅らせる方法があるかどうか知りたいです。現在の設定で達成できることは、警告メールを無視するように訓練することだけです。
それができない場合、「不明」アラートとそれに対応する回復アラートの送信を完全に無効にする方法はありますか?
答え1
私は実際には Munin を使用していませんが、unknown_limit
アイテム/プラグインに対して、値を「不明」に設定する前に連続して何回読み取りに失敗するかを定義する設定が設定されているようです。
Munin::LimitsOld モジュールに基づくと、デフォルトは 3 ですが、この数値を設定するか増やしてみる必要があると思います。
Munin 1.4.5 でこれを確認しました。
答え2
私は、munin にエンドユーザーに直接通知するのではなく、NSCA 経由で NAGIOS に通知させ、NAGIOS に通知を処理させることでこれを実現しています。つまり、通知の遅延、頻度、エスカレーションなどに関して、NAGIOS の (はるかに洗練された) コントロールを使用できるということです。確かに、NAGIOS は通知エンジンとしては非常に重いですが、定量的ではなく定性的監視にも使用できます。
答え3
オープンソースツールを使用する大きな利点の1つは、ソースを見て、そのツールが何をするのかを正確に確認できることです(そして、気に入らない場合は動作を変更することもできます)。LimitsOld.pmをざっと見ると、Gáborの提案が正しいアプローチであることがわかります。unknown_limitはサービスごとに設定することも、グローバルに設定することもできます。これは、Munin 1.4.4あたりで登場しました(http://munin-monitoring.org/ticket/828)。