
Manchmal reagieren Dienste und Hosts aufgrund einer schlechten Serverleistung nicht mehr. Ich meine, wenn aus irgendeinem Grund (viele gleichzeitige Zugriffe auf Dienste, eine teure Backup-Ausführung auf dem Server oder was auch immer, das Tonnen von Serverressourcen verbraucht) die Serverleistung stark nachlässt, kann dies dazu führen, dass der Server keine „normale Netzwerkkommunikation“ herstellen kann (ohne die für eine solche Kommunikation definierten Standard-Timeouts auszulösen).
Die Kenntnis der Leistungsdaten des Hosts (CPU, Speicher usw.) falls diese während dieses Zeitraums verfügbar sind (der Host ist nicht ausgefallen und ermöglicht trotz seiner Leistungsverschlechterung weiterhin die Erfassung von Leistungsdaten durch Plug-ins), kann für den Systemadministrator sehr hilfreich sein, um die Ursache des Problems zu ermitteln oder zumindest festzustellen, ob die Leistung des Hosts gut war und der Ausfall des Hosts/Dienstes nichts damit zu tun hatte.
Dieses Problem könnte durch die Verwendung von Remote Active (NRPE) oder Remote Passive (NSCA) gelöst werden, wenn solche Remote-Lösungen Leistungsdaten speichern (puffern) könnten, um sie an den zentralen Nagios-Server zu senden, wenn die Host-Leistung oder ein Netzwerkausfall dies zulassen. Ich habe die Dokumentation beider Lösungen gelesen und kann weder einen Hinweis auf einen solchen Puffermechanismus finden, noch darauf, was passiert, wenn NSCA den Nagios-Server nicht erreichen kann.
Irgendeine Idee, wie man diesen Informationsmangel beheben kann? Sehr nützlich für die forensische Analyse.
BEARBEITEN:
Meine Frage betrifft nicht, welche Tools ich zum Debuggen von Leistungsproblemen oder zum Sammeln von Leistungsdaten zur Analyse verwenden kann, sondern wie ich (mit Nagios) Leistungsdaten des Hosts auch während eines Netzwerkausfalls für eine spätere Analyse (eine Art forensische Analyse) sammeln kann. Die Idee ist, solche Daten in Nagios-Grapher wie pnp4nagios und NagiosGrapther zu integrieren. Ich weiß, dass ich Tools wie Cacti auf jedem meiner Hosts installieren und eine Art Redundanz bei der Erfassung von Leistungsdaten haben könnte, aber ich möchte das wirklich vermeiden und versuchen, alle Anforderungen an die Leistungsanalyse mit einem einzigen Tool zu erfüllen: Nagios
Antwort1
Bei Nagios bin ich mir nicht sicher, aber wenn Sie sich beim Server anmelden können, sammeln Sie die folgenden Details, die Ihnen helfen, das Problem einzugrenzen. Mithilfe des folgenden Befehls können Sie feststellen, wer mehr CPU und Speicher verbraucht. Oder befindet sich das System in OOM-Zuständen.
top -n 5 -b
vmstat 1 50
iostat -x 2 10
ps -aufx
sar 1 50
cat /proc/meminfo
cat /proc/buddyinfo