サーバーがダウンした理由を診断する

サーバーがダウンした理由を診断する

私は、Windows Server 2008 R2 VPS で実行している Asp.Net Web アプリをいくつか持っています。この VPS は何年も使っています。ここ数か月、アプリが 30 ~ 45 分間ダウンするようになりました。これは定期的に発生するわけではなく、同じ時間帯に発生するわけでもありません。この 2 か月間で 4 ~ 5 回発生したはずです。当社の分析では、多数のユーザーが同時にオンラインになっているとは報告されていません。オンラインになっているユーザーが増えても、問題は発生していません。

ダウンタイム中は、VPS に RDP できません。New Relic モニタリングでは、どの面でもアクティビティがゼロと表示されます。VPS がオンラインに戻った後、アプリは正常に動作します。VPS がオンラインに戻った後も、New Relic にはその期間の新しいエントリは表示されません。イベント ビューアーにも、ダウンタイム期間中のエントリは表示されません。ダウンタイムが始まるまで、システム/セキュリティ/アプリケーション ログには、ほぼ 1 分ごとに通常のエントリがあります。次のエントリは、ダウンタイムが終了した後に開始されます。

その期間中、VPS はスリープ状態になっていたようです。イベント ビューアーで ID 6005、6008、6009、6013、1072、1074、1076 のイベントを確認しました。インターネットのさまざまな投稿で、これらのイベント ID は計画的または予期しないシャットダウン/再起動を識別するのに役立つと読みました。この時間範囲のイベントは見つかりませんでした。

なぜこのようなことが起こるのかを特定し、これを防ぐために他に何ができるでしょうか。

編集

このダウンタイムは、ホストが物理サーバーを再起動したために発生しました。以前のダウンタイムに関しては、ホストは関与していないと主張しています。見てみましょう。私は現在、@Greg の投稿を承認済み回答としてマークしていますが、これは今まで検討していなかったことです。

答え1

他に何ができますか? ASP.Net ヘルス モニタリング/ハートビートを 1 分間隔で有効にします。ハートビートがない場合は、Windows/IIS/ASP.Net の外部に問題がある可能性があります。

OS の欠陥よりもサービス プロバイダーが停止を引き起こした可能性が高いと思われますが、複数のホスト/ネットワークで複数のサーバーを使用している場合、OS の欠陥による影響はほとんどないと考えられます。

メトリクス、測定、または可用性に関する合意がない場合、クライアント OS を利用して VPS プロバイダーのホストまたはネットワークの問題を解決し、リバース エンジニアリングで回答を導き出そうとしても、あまり成功しないでしょう。

残念ながら、アプリを「クラウド」に移行しても、壊れたり機能不全になったりしたアーキテクチャや契約スキルを修正することはできません。

答え2

VPS プロバイダーに問い合わせてください。ハードウェア障害、ネットワークの問題、その他さまざまな原因が考えられます。リモート接続が失われるということは、問題がアプリ外、おそらく OS 外にあることを示しています。ベンダーが問題の診断を手伝ってくれるはずです。そうでない場合でも、信頼性の問題に対して何をすべきかについての答えは見つかると思います。

関連情報