NSCA passiv veraltet --> mehrere hängende Nrpe-Prozesse?

NSCA passiv veraltet --> mehrere hängende Nrpe-Prozesse?
  • schinken 2.0.3
  • Nr. 2.15

Wir benutzenNSCAum passive Prüfungen durchzuführen.

define service {
    name salt-service
    register 0

    active_checks_enabled 0
    passive_checks_enabled 1
    check_freshness 1
    freshness_threshold 600
    max_check_attempts 2
    check_interval 5
    retry_interval 3
}

define service {
    use salt-service
    service_description syncthing_procs-2
    host_name x
    check_command check_nrpe!syncthing_procs!10
    display_name Syncthing Procs
}

Obwohl es freshness_threshold10 Minuten sind, gibt es einen Fall, in dem passive Prüfungen veraltet sind:

6. Okt. 09:52:36 x Shinken: [Dienstag, 6. Okt. 09:52:35 2015] Warnung: Die Ergebnisse des Dienstes „syncthing_procs-2“ auf Host „x“ sind seit 0d 0h 10m 16s veraltet (Schwellenwert=16714d 9h 42m 35s). Ich erzwinge eine sofortige Überprüfung des Dienstes.

Oh, wo threshold=16714d 9h 42m 35skommt das her, wenn ich es in der Konfigurationsdatei auf 10 Minuten einstelle? Sicher, die Systemzeit auf der Shinken-VM und dem Host „x“ ist gleich.

Viele Dienste sind auf diese Weise veraltet. Wie Sie sehen, führen wir nach einer passiven Überprüfung check_nrpeeine aktive Überprüfung durch. Und das Problem ist, dass wir jetzt so viele nrpe-Prozesse haben, die hängen zu bleiben scheinen:

nagios   31404     1  0 Sep18 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   31727     1  0 Oct01 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   31732     1  0 Oct01 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   32148     1  0 Sep30 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   32157     1  0 Sep30 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d

Ich füge nur ein paar ein. Tatsächlich sind es > 200 Prozesse.

Neben dem falschen Schwellenwert habe ich noch eine weitere Frage: Warum gibt es danach so viele nrpe-Prozesse? Ich weiß, dass bei der Durchführung einer aktiven Prüfung ein neuer Prozess geforkt wird. Aber dieser sollte doch nach Abschluss der Prüfung verschwinden, oder?


Ah, ich kenne die Antwort auf die erste Frage.

Oh, woher kommt der Schwellenwert = 16714d 9h 42m 35s, obwohl ich ihn in der Konfigurationsdatei auf 10 Min. eingestellt habe?

Es scheint, als gäbe es einen kleinen Unterschied zwischen Shinken und Nagios. Es ist die Epochenzeit in Tagen/Stunden/Minuten/Sekunden.

expr $(date +%s) / 3600 / 24
16714

Antwort1

Es ist nicht möglich zu sagen, was in Ihrem Fall genau schief gelaufen ist. Hier sind also einige Überlegungen:

Wir verwenden NSCA, um passive Prüfungen durchzuführen. Warum gibt es danach so viele NRPE-Prozesse? Ich weiß, dass bei der Durchführung einer aktiven Prüfung ein neuer Prozess geforkt wird. Aber dieser sollte nach Abschluss der Prüfung verschwinden, oder?

Es scheint, dass NSCA nicht richtig funktioniert. Es wurden aktive Prüfungen durchgeführt. Stellen Sie sicher, dass NSCA funktioniert.

Obwohl der freshness_threshold 10 Minuten beträgt, gibt es Fälle, in denen passive Prüfungen veraltet sind

oder NSCA ist nicht so konfiguriert, dass es passive Ergebnisse an Shinken sendet

Ich weiß, dass bei der Durchführung einer aktiven Prüfung ein neuer Prozess geforkt wird. Aber dieser sollte nach Abschluss der Prüfung verschwinden, richtig?

Möglicherweise wurden die Prüfungen nicht durchgeführt und die Verbindungen werden von der anderen Seite aufrechterhalten (Shinken).

verwandte Informationen