Diagnostizieren, warum der Server ausgefallen ist

Diagnostizieren, warum der Server ausgefallen ist

Ich habe ein paar Asp.Net-Web-Apps, die auf einem Windows Server 2008 R2 VPS laufen. Wir verwenden diesen VPS seit Jahren. In den letzten Monaten sind unsere Apps immer wieder für 30-45 Minuten ausgefallen. Das passiert nicht regelmäßig und auch nicht immer zur gleichen Tageszeit. Das muss in den letzten 2 Monaten vielleicht 4 oder 5 Mal passiert sein. Unsere Analysen melden keine große Anzahl gleichzeitig online aktiver Benutzer. Wir hatten mehr Benutzer online und hatten keine Probleme.

Während der Ausfallzeit können wir uns nicht per RDP mit dem VPS verbinden. Die Überwachung von New Relic zeigt an keiner Front Aktivität an. Nachdem der VPS wieder online ist, funktionieren die Apps normal. Selbst nachdem der VPS wieder online ist, zeigt New Relic für diesen Zeitraum keine neuen Einträge an. Auch die Ereignisanzeige zeigt während der Ausfallzeit keine Einträge an. Wir haben die üblichen Einträge in den System-/Sicherheits-/Anwendungsprotokollen, fast einen pro Minute, bis die Ausfallzeit begann. Und der nächste Eintrag beginnt, nachdem die Ausfallzeit vorbei war.

Es sieht fast so aus, als ob unser VPS für diese Dauer in den Ruhezustand versetzt worden wäre. Ich habe die Ereignisanzeige auf Ereignisse mit den IDs 6005, 6008, 6009, 6013, 1072, 1074 und 1076 überprüft. Ich habe in verschiedenen Internetbeiträgen gelesen, dass diese Ereignis-IDs dabei helfen können, geplante/unerwartete Herunterfahren/Neustarts zu identifizieren. Für diesen Zeitraum habe ich keine gefunden.

Was kann ich sonst noch tun, um herauszufinden, warum dies geschieht, und um es zu verhindern?

BEARBEITEN

Dieser Ausfall war darauf zurückzuführen, dass der Host den physischen Server neu gestartet hat. Bezüglich der vorherigen Ausfallzeiten behauptet der Host, nicht daran beteiligt gewesen zu sein. Mal sehen. Ich markiere den Beitrag von @Greg derzeit als akzeptierte Antwort, da ich das bisher nicht in Betracht gezogen hatte.

Antwort1

Was können Sie sonst noch tun? Aktivieren Sie ASP.Net Heath Monitoring/Heartbeat im Minutentakt. Wenn kein Heartbeat vorhanden ist, liegt das wahrscheinlich an einem externen Problem von Windows/IIS/ASP.Net.

Es scheint wahrscheinlicher, dass Ihr Dienstanbieter den Ausfall verursacht hat, als dass ein Betriebssystemdefekt vorliegt, der höchstwahrscheinlich keinerlei Auswirkungen hätte, wenn mehrere Server über mehrere Hosts/Netzwerke hinweg verwendet werden.

Wenn Sie über keine Metriken, Messungen oder Verfügbarkeitsvereinbarungen verfügen, werden Sie beim Versuch, eine Antwort durch Reverse Engineering zu ermitteln, indem Sie das Client-Betriebssystem dazu bringen, Probleme der Hosts oder des Netzwerks des VPS-Providers zu lösen, nicht viel Erfolg haben.

Leider können durch das Verschieben von Apps in die „Cloud“ fehlerhafte oder nicht funktionierende Architekturen oder Vertragsfähigkeiten nicht behoben werden.

Antwort2

Kontaktieren Sie Ihren VPS-Anbieter. Es könnte sich um einen Hardwarefehler, ein Netzwerkproblem oder eine Reihe anderer Ursachen handeln. Der Verlust der Remote-Konnektivität deutet darauf hin, dass das Problem außerhalb Ihrer App und wahrscheinlich außerhalb des Betriebssystems liegt. Ihr Anbieter sollte Ihnen bei der Diagnose der Probleme helfen können.... Wenn nicht, haben Sie meiner Meinung nach trotzdem eine Antwort darauf, was Sie gegen Ihre Zuverlässigkeitsprobleme tun können.

verwandte Informationen