最近、サイト全体で停電が発生しました (UPS が空になりました)。すべてが復旧した後、ネットワークの動作がおかしくなっています。
サーバーはネットワーク上の他の 1 台のマシンにしか ping できず、ネットワーク共有はいずれも利用できないようです。 (ワークステーションを再起動するとこのマシンは変更されます)
現在のステータス:
- サーバーは、ネットワーク上の 1 台のマシンから ping を実行したり、ping を受けることができます。
- DNS ホスト名は PING で正しい IP に解決されます (すべてのマシンから)
- すべてのマシンのサーバーネットワーク共有 (NFS/SMB) がダウンしています (ping を実行できるボックスからでも)
- NFSおよびSMBサービスが実行中
- 現在 ping が可能なマシンであれば、どのマシンからでも ssh でサーバーにアクセスできます。
- サーバーはない中間スイッチにpingを実行しますか?
- ワークステーションはすべての中間ハードウェアにpingを実行できる
環境:
DNS/Auth - Active Directory (すべて静的 IP / DHCP なし) Debian 6.3.0 (4 つのボンディングされた 40gE で接続、すべて稼働中) サーバー <-> Mellanox スイッチ sn2100 <-> Mellanox ファイバー 10G (sn1016) <-> ワークステーション
混在 OS ワークステーション (OSX 10.14 以上、Windows 10、CentOS 7)
容疑者:
現在、sn2100 のルーティングに何らかの問題があると思われますが、他のデバイスは問題なくルーティングされます。
答え1
それで翻訳者それは正しいデバッグパスでした。
解決:
Mellanox スイッチの結合接続を分解し始めた後、各ポートの LAG モード設定がすべて混在していることに気付きました。1 つはグレー表示、1 つは静的モード、残りは正常でした。これは、停電中に破損したか、システムが LAG が構築されていた状態にロールバックされたかのいずれかです。
LAG からすべてのポートを削除し、それぞれの LAG モードを LACP アクティブに更新してから、LAG を再作成しました。
マシンは即座にサーバーに ping を実行でき、NFS 共有を復旧するには再マウントのみが必要でした。