停電後、サーバーは複数のマシンに ping できません。(すべてのネットワーク共有が利用できません)

停電後、サーバーは複数のマシンに ping できません。(すべてのネットワーク共有が利用できません)

最近、サイト全体で停電が発生しました (UPS が空になりました)。すべてが復旧した後、ネットワークの動作がおかしくなっています。

サーバーはネットワーク上の他の 1 台のマシンにしか ping できず、ネットワーク共有はいずれも利用できないようです。 (ワークステーションを再起動するとこのマシンは変更されます)

現在のステータス:

  • サーバーは、ネットワーク上の 1 台のマシンから ping を実行したり、ping を受けることができます。
  • DNS ホスト名は PING で正しい IP に解決されます (すべてのマシンから)
  • すべてのマシンのサーバーネットワーク共有 (NFS/SMB) がダウンしています (ping を実行できるボックスからでも)
  • NFSおよびSMBサービスが実行中
  • 現在 ping が可能なマシンであれば、どのマシンからでも ssh でサーバーにアクセスできます。
  • サーバーはない中間スイッチにpingを実行しますか?
  • ワークステーションはすべての中間ハードウェアにpingを実行できる

環境:

DNS/Auth - Active Directory (すべて静的 IP / DHCP なし) Debian 6.3.0 (4 つのボンディングされた 40gE で接続、すべて稼働中) サーバー <-> Mellanox スイッチ sn2100 <-> Mellanox ファイバー 10G (sn1016) <-> ワークステーション

混在 OS ワークステーション (OSX 10.14 以上、Windows 10、CentOS 7)

容疑者:

現在、sn2100 のルーティングに何らかの問題があると思われますが、他のデバイスは問題なくルーティングされます。

答え1

それで翻訳者それは正しいデバッグパスでした。

解決:

Mellanox スイッチの結合接続を分解し始めた後、各ポートの LAG モード設定がすべて混在していることに気付きました。1 つはグレー表示、1 つは静的モード、残りは正常でした。これは、停電中に破損したか、システムが LAG が構築されていた状態にロールバックされたかのいずれかです。

LAG からすべてのポートを削除し、それぞれの LAG モードを LACP アクティブに更新してから、LAG を再作成しました。

マシンは即座にサーバーに ping を実行でき、NFS 共有を復旧するには再マウントのみが必要でした。

関連情報