Fehlerbehebung bei mysteriösen Server-Einfrierungen auf Amazon EC2

Fehlerbehebung bei mysteriösen Server-Einfrierungen auf Amazon EC2

Ich habe eine Amazon EC2-Instanz, auf der LAMP unter Ubuntu Natty/11.04 läuft. In den letzten Monaten hat der Server bei drei verschiedenen Gelegenheiten, davon zwei Mal in den letzten zwei Wochen, einfach... aufgehört. Er reagiert nicht mehr und reagiert nicht mehr auf Verbindungsversuche (SSH oder anderweitig), aber das EC2-Kontrollfeld meldet ihn immer noch als ausgeführt. Jedes Mal musste ich die Instanz über die Konsole neu starten, was zu Datenverlust führte.

Ich versuche jetzt also, das Problem zu diagnostizieren, aber mir fällt nichts ein und ich brauche Ratschläge, wonach ich sonst noch suchen soll. Syslog enthält nichts Verdächtiges – bei jeder Gelegenheit war das Letzte, was passierte, dass Munin seinen regulären fünfminütigen Cronjob ausführte, obwohl ich nicht genau weiß, wann die Maschine aufgehört hat zu arbeiten, und ich kann daher nicht sagen, wie nahe das Cron-Protokoll dem Einfrieren ist. Danach ist es, als ob die Maschine einfach nicht lief, bis zu dem Zeitpunkt, an dem sie neu gestartet wurde. Danach enthält Syslog etwas, das für mich wie eine normale dmesg-Ausgabe aussieht.

Es scheint keinen Zusammenhang zwischen dem Verkehrsaufkommen und dem Zeitpunkt dieser Sperrungen zu geben. Sie fanden alle weit entfernt von den Hauptverkehrszeiten statt.

Was kann ich sonst noch untersuchen, um herauszufinden, was diese Probleme verursacht hat? Was könnte das Problem sein?

NACHTRAG: Der Server war zu keinem Zeitpunkt stark ausgelastet, als er ausfiel. CPU- und Speichernutzung lagen beide deutlich und sicher unter den Grenzwerten. Es gab reichlich freien Speicherplatz (zig Gigabyte). Auch in den Apache- oder MySQL-Protokollen ist nichts Ungewöhnliches zu sehen, sie hören zu diesem Zeitpunkt einfach auf zu arbeiten. Dies ist eine Instanz mit mittlerer/hoher CPU-Auslastung.

Antwort1

Als Erstes sollten Sie eine Überwachung einrichten, die Sie benachrichtigt, wenn der Server nicht mehr reagiert. Sie können dies tun, indem Sie Pingdom und/oder Cloudwatch verwenden, um die Verfügbarkeit des Dienstes und Systemstatistiken wie CPU und RAM zu überprüfen. Beide bieten kostenlose Pläne für kleine Konten. So können Sie sich ein Bild davon machen, wann der Server ausfällt, und Sie können leichter in den Protokollen nachsehen, was in diesem Moment vor sich ging. Normalerweise kann so etwas daran liegen, dass das System nicht über genügend Ressourcen verfügt. Sie erwähnen nicht, wie groß Ihre Instanz ist, aber so etwas wie ein Mikro könnte durch einen einfachen Cron-Job 100 % der CPU-Leistung erreichen, woraufhin der Server einfach abstürzt.

Überprüfen Sie neben dem Syslog auch andere Protokolle. Überprüfen Sie alle App-Protokolle, um zu sehen, ob eines davon einen Fehler verursacht, bevor Ihr System ausfällt.

Antwort2

Möglicherweise liegt eine fehlerhafte Netzwerkkarte auf dem Hostcomputer vor.

verwandte Informationen