Recientemente tuvimos un corte de energía en todo el sitio (agotó los UPS). Después de que todo volvió a funcionar, estamos experimentando un comportamiento de red extraño.
Parece como si el servidor sólo pudiera hacer ping a otra máquina en la red y ninguno de los recursos compartidos de la red estuviera disponible. (esta máquina cambia si reiniciamos las estaciones de trabajo)
Estado actual:
- El servidor puede hacer ping y recibir ping desde una máquina en la red.
- El nombre de host DNS se resuelve para corregir la IP en PING (de todas las máquinas)
- Los recursos compartidos de red del servidor (NFS/SMB) están inactivos para todas las máquinas (incluso desde la caja que puede hacer ping)
- Los servicios NFS y SMB se están ejecutando
- Se puede acceder al servidor mediante ssh desde cualquier máquina que actualmente pueda hacer ping.
- El servidor puedeno¿Hacer ping a los interruptores intermediarios?
- Las estaciones de trabajo pueden hacer ping a todo el hardware intermediario
ENV:
DNS/Auth - Active Directory (todas las ips estáticas/sin DHCP) Debian 6.3.0 (conectado por 4 40 gE enlazados, todos están activos) Servidor <-> Mellanox Switch sn2100 <-> Mellanox Fiber 10G (sn1016) <-> Estaciones de trabajo
Estaciones de trabajo con sistemas operativos mixtos (OSX 10.14 y superiores, Windows 10, CentOS 7)
Sospechar:
Actualmente sospecho que hay algún tipo de problema con el enrutamiento del sn2100, pero otros dispositivos lo utilizan sin problemas.
Respuesta1
Entonces@usuario1686esa era la ruta de depuración correcta.
Solución:
Después de comenzar a separar la conexión enlazada en el conmutador Mellanox, noté que las configuraciones del modo LAG estaban todas mezcladas para cada puerto. Uno estaba atenuado, otro estaba en modo estático y el resto eran correctos. Esto se dañó durante el corte de energía o el sistema volvió a un estado en el que se estaba construyendo el LAG.
Eliminé todos los puertos del LAG, actualicé el modo LAG para que cada uno fuera LACP activo y luego volví a crear el LAG.
Las máquinas podían hacer ping instantáneamente al servidor y solo necesitaban volver a montarse para que los recursos compartidos NFS volvieran a funcionar.