
データ センターで奇妙な問題が発生しています。バックアップ サーバー (EMC Networker を実行) は、1 日おきに午前 3 時頃にネットワーク接続を失います (バックアップ スケジュールは深夜に開始されます)。2 時間の停止後、ネットワーク接続は自動的に回復し、正常に戻ります。
私たちが観察したもの:
サーバー ファーム スイッチに直接接続されているため (中間ホップのないレイヤー 2 接続)、ネットワークの問題である可能性は低いです。さらに、サーバーは Broadcomm Teaming を使用して負荷分散を行うために 2 つの異なるスイッチに接続されています。
a) スイッチ関連の問題である場合、両方のネットワーク ポートが異なるスイッチに接続されているため、両方のネットワーク ポートがダウンする可能性は低くなります。
b) 同じ VLAN 内の他のデバイスは正常であるため、VLAN 全体の問題の可能性も排除されます。
c) スイッチのインターフェースの状態は常にアップです。しかし、停止期間中にパケットのドロップが多発しています。これは、バックアップ サーバーのインターフェース使用率が高い (100% 近く) ことが原因と考えられます。
d) ネットワークに変更を加えることなく接続が回復します。
次に疑われるのは、Windows サーバーのリソース使用率です。CPU とメモリはどちらも 80% を超えることはめったにありませんが、NIC カードの使用率は驚くほど高くなっています (100% 近く)。
これをどう調査したらよいかよくわからないですか?
答え1
ドライバの問題かデュプレックスの不一致が疑われます。ドライバをアップグレードして、両端のデュプレックスが同じであることを確認してください。スイッチからのイーサネット統計も確認してください (エラー、衝突などがある場合)。
どういう意味ですかネットワーク接続が失われる? 到達不能ですが、インターフェースは稼働していますか? 到達可能ではありますが、パケット損失が多くなっていますか?
答え2
ネットワークカードを変更してみましたか?
答え3
ネットワーク接続が失われたとどのように判断していますか? それは具体的にどういう意味ですか? 接続できないことを知らせる監視機能はありますか? イベント ログに何か記録されていますか? ある場合、内容は何ですか?
ネットワークの使用率が高い場合、つまり完全に飽和状態になっている場合、接続が切断されたように見えることがあります。ただし、説明に基づいて判断するのは困難です。ただし、バックアップ ジョブがパイプを最大限まで使用しているのではないかと思います。1 日おきにバックアップ ジョブを実行していますか :)
答え4
それは何のスイッチですか?
この特定の問題が発生しているときに、同じスイッチ上の他のデバイスで通信上の問題が発生していますか? まれで可能性は低いですが、そのスイッチ上の限られたリソースを使い果たし、ある意味で自分自身に DOS 攻撃を仕掛けている可能性があります。
また、DOS 攻撃を防ぐメカニズムを導入している場合は、使用パターンが正常に戻るまで、問題のあるサーバーを事実上ブラックホール化することができます。