El servidor no puede hacer ping a más de una máquina después de un corte de energía. (Todos los recursos compartidos de red no están disponibles)

El servidor no puede hacer ping a más de una máquina después de un corte de energía. (Todos los recursos compartidos de red no están disponibles)

Recientemente tuvimos un corte de energía en todo el sitio (agotó los UPS). Después de que todo volvió a funcionar, estamos experimentando un comportamiento de red extraño.

Parece como si el servidor sólo pudiera hacer ping a otra máquina en la red y ninguno de los recursos compartidos de la red estuviera disponible. (esta máquina cambia si reiniciamos las estaciones de trabajo)

Estado actual:

  • El servidor puede hacer ping y recibir ping desde una máquina en la red.
  • El nombre de host DNS se resuelve para corregir la IP en PING (de todas las máquinas)
  • Los recursos compartidos de red del servidor (NFS/SMB) están inactivos para todas las máquinas (incluso desde la caja que puede hacer ping)
  • Los servicios NFS y SMB se están ejecutando
  • Se puede acceder al servidor mediante ssh desde cualquier máquina que actualmente pueda hacer ping.
  • El servidor puedeno¿Hacer ping a los interruptores intermediarios?
  • Las estaciones de trabajo pueden hacer ping a todo el hardware intermediario

ENV:

DNS/Auth - Active Directory (todas las ips estáticas/sin DHCP) Debian 6.3.0 (conectado por 4 40 gE enlazados, todos están activos) Servidor <-> Mellanox Switch sn2100 <-> Mellanox Fiber 10G (sn1016) <-> Estaciones de trabajo

Estaciones de trabajo con sistemas operativos mixtos (OSX 10.14 y superiores, Windows 10, CentOS 7)

Sospechar:

Actualmente sospecho que hay algún tipo de problema con el enrutamiento del sn2100, pero otros dispositivos lo utilizan sin problemas.

Respuesta1

Entonces@usuario1686esa era la ruta de depuración correcta.

Solución:

Después de comenzar a separar la conexión enlazada en el conmutador Mellanox, noté que las configuraciones del modo LAG estaban todas mezcladas para cada puerto. Uno estaba atenuado, otro estaba en modo estático y el resto eran correctos. Esto se dañó durante el corte de energía o el sistema volvió a un estado en el que se estaba construyendo el LAG.

Eliminé todos los puertos del LAG, actualicé el modo LAG para que cada uno fuera LACP activo y luego volví a crear el LAG.

Las máquinas podían hacer ping instantáneamente al servidor y solo necesitaban volver a montarse para que los recursos compartidos NFS volvieran a funcionar.

información relacionada