Wir haben ein BIP-IP 6400 LTM-Gerät, das Prozesse mit alarmierender Häufigkeit beendet. Die CPU-Auslastung liegt konstant bei etwa 23 %, das ist also kein Problem.
Hier ist ein Beispiel aus /var/log/ltm
:
Oct 7 08:21:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25338 exited with signal = 9
Oct 7 08:22:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25587 exited with signal = 9
Oct 7 08:22:34 local/pri-4600 info bigd[3471]: reap_child: child process PID = 25793 exited with signal = 9
Oct 7 08:23:10 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26260 exited with signal = 9
Oct 7 08:23:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26584 exited with signal = 9
Oct 7 08:23:40 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26647 exited with signal = 9
Oct 7 08:23:45 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26699 exited with signal = 9
Oct 7 08:23:55 local/pri-4600 info bigd[3471]: reap_child: child process PID = 26805 exited with signal = 9
Oct 7 08:25:36 local/pri-4600 info bigd[3471]: reap_child: child process PID = 28079 exited with signal = 9
Oct 7 08:27:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29286 exited with signal = 9
Oct 7 08:27:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29307 exited with signal = 9
Oct 7 08:27:56 local/pri-4600 info bigd[3471]: reap_child: child process PID = 29793 exited with signal = 9
Oct 7 08:29:20 local/pri-4600 info bigd[3471]: reap_child: child process PID = 30851 exited with signal = 9
Oct 7 08:33:00 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1122 exited with signal = 9
Oct 7 08:33:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 1299 exited with signal = 9
Oct 7 08:34:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2054 exited with signal = 9
Oct 7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2784 exited with signal = 9
Oct 7 08:35:16 local/pri-4600 info bigd[3471]: reap_child: child process PID = 2807 exited with signal = 9
Oct 7 08:35:35 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3015 exited with signal = 9
Oct 7 08:36:15 local/pri-4600 info bigd[3471]: reap_child: child process PID = 3601 exited with signal = 9
Ist das normal? Wenn nicht, was könnte die Ursache dafür sein?
Antwort1
bigd ist der Überwachungs-Daemon auf dem BIG-IP und daher scheint es, als ob ein verwendeter Monitor abstürzt. Sie sollten einen Fall beim Support eröffnen und Ihre qkview auf ihealth.f5.com hochladen. Hier ist eine Lösung für diese Fehlermeldung:
https://support.f5.com/kb/en-us/solutions/public/17000/000/sol17092.html
Antwort2
Dies war ein bekannter Fehler in der von uns ausgeführten BIG-IP-Software 10.2.4.
Vom F5-Support:
... Sie sind auf ein bekanntes Problem gestoßen, das intern wie folgt verfolgt wird: Fehler-ID 539130 „Bigd kann während der Verarbeitung von SIGCHLD einen Deadlock verursachen, der Bigd-Heartbeat-Fehler und SIGABRT verursacht“ -=Bedingung=- Externe Monitore, die lange laufen und durch die nächste Iteration des Monitors beendet werden, können dazu führen, dass Bigd abstürzt und den Kernel startet, was zu einer vorübergehenden Unterbrechung der Integritätsüberwachung führt.
Die Lösung bestand darin, die Software mit zu aktualisieren Hotfix-BIGIP-10.2.4-HF12-866.11-ENG
.