斷電後伺服器無法 ping 通多台機器。 (所有網路共用均不可用)

斷電後伺服器無法 ping 通多台機器。 (所有網路共用均不可用)

我們最近發生了全廠停電(UPS 耗盡)。一切恢復後,我們遇到了一些奇怪的網路行為。

看起來伺服器只能 ping 通網路上的另一台計算機,並且沒有任何網路共用可用。 (如果我們重新啟動工作站,這台機器就會改變)

目前狀態:

  • 伺服器可以 ping 通,也可以從網路上的一台電腦 ping 通伺服器。
  • DNS 主機名稱解析為 PING 上的正確 IP(來自所有電腦)
  • 所有機器的伺服器網路共用 (NFS/SMB) 都已關閉(即使是可以 ping 通的機器)
  • NFS 和 SMB 服務正在運行
  • 可以從目前能夠 ping 通的任何電腦透過 ssh 存取伺服器。
  • 伺服器可以不是ping 中間交換器?
  • 工作站可以 ping 所有中間硬件

環境:

DNS/Auth - Active Directory(所有靜態 ip/無 DHCP) Debian 6.3.0(由 4 個綁定 40gE 連接,全部啟動) 伺服器 <-> Mellanox 交換器 sn2100 <-> Mellanox Fiber 10G (sn1016) <-> 工作站

混合式作業系統工作站(OSX 10.14 及更高版本、Windows 10、CentOS 7)

懷疑:

目前懷疑 sn2100 上的路由有某種問題,但其他設備透過它路由很好。

答案1

所以@用戶1686這是正確的調試路徑。

解決方案:

在開始分解 Mellanox 交換器中的綁定連接後,我注意到每個連接埠的 LAG 模式設定都混合在一起。一張呈灰色,一張處於靜態模式,其餘均正確。它要么在電源故障期間被損壞,要么系統回滾到 LAG 正在建構的狀態。

我從 LAG 中刪除了所有端口,將每個端口的 LAG 模式更新為 LACP 活動,然後重新建立 LAG。

機器可以立即 ping 伺服器,並且只需要重新掛載 NFS 共用即可恢復。

相關內容