Der Server kann nach einem Stromausfall nicht mehr als eine Maschine anpingen. (Alle Netzwerkfreigaben nicht verfügbar)

Der Server kann nach einem Stromausfall nicht mehr als eine Maschine anpingen. (Alle Netzwerkfreigaben nicht verfügbar)

Wir hatten kürzlich einen standortweiten Stromausfall (die USVs waren leer). Nachdem alles wieder funktionierte, kam es zu einem seltsamen Netzwerkverhalten.

Es scheint, als könne der Server nur einen anderen Computer im Netzwerk anpingen und keine der Netzwerkfreigaben sei verfügbar. (diese Maschine ändert sich, wenn wir die Arbeitsstationen neu starten)

Aktueller Status:

  • Der Server kann von einer Maschine im Netzwerk aus angepingt werden.
  • DNS-Hostname wird bei PING in die richtige IP aufgelöst (von allen Rechnern)
  • Die Netzwerkfreigaben der Server (NFS/SMB) sind für alle Rechner ausgefallen (auch von der Box, die einen Ping senden kann).
  • NFS- und SMB-Dienste laufen
  • Der Server kann per SSH von jedem Computer aus erreicht werden, der aktuell einen Ping senden kann.
  • Server könnennichtPing-Zwischenschalter?
  • Workstations können alle zwischengeschalteten Hardwaregeräte anpingen

Umwelt:

DNS/Auth – Active Directory (alle statischen IPs / kein DHCP) Debian 6.3.0 (verbunden durch 4 gebündelte 40gE, alle aktiv) Server <-> Mellanox Switch sn2100 <-> Mellanox Fiber 10G (sn1016) <-> Workstations

Workstations mit verschiedenen Betriebssystemen (OSX 10.14 und höher, Windows 10, CentOS 7)

Verdächtig:

Ich vermute derzeit, dass es ein Problem mit dem Routing auf dem SN2100 gibt, aber bei anderen Geräten läuft das Routing problemlos darüber.

Antwort1

Also@Benutzer1686das war der richtige Debugpfad.

Lösung:

Nachdem ich begonnen hatte, die gebündelte Verbindung im Mellanox-Switch aufzulösen, bemerkte ich, dass die LAG-Moduseinstellungen für jeden Port durcheinander waren. Einer war ausgegraut, einer befand sich im statischen Modus und der Rest war korrekt. Dies war entweder während des Stromausfalls beschädigt worden oder das System wurde in einen Zustand zurückgesetzt, in dem die LAG erstellt wurde.

Ich habe alle Ports aus der LAG entfernt, den LAG-Modus für jeden Port auf „LACP-aktiv“ aktualisiert und dann die LAG neu erstellt.

Die Maschinen konnten den Server sofort anpingen und mussten nur erneut gemountet werden, damit die NFS-Freigaben wiederhergestellt wurden.

verwandte Informationen