
Nos enfrentamos a un problema extraño en nuestro centro de datos. Nuestro servidor de respaldo (que ejecuta EMC Networker) pierde la conexión de red cada día alterno alrededor de las 3:00 a. m. (el horario de respaldo comienza a la medianoche). Después de 2 horas de interrupción, la conectividad de la red se recupera automáticamente y vuelve a la normalidad.
Lo que observamos:
Es poco probable que sea un problema de red, ya que está conectado directamente al conmutador de la granja de servidores (conexión de capa 2 sin saltos intermedios). Además, el servidor está conectado a dos conmutadores diferentes para el equilibrio de carga mediante Broadcomm Teaming.
a) Si se tratara de un problema relacionado con el conmutador, es poco probable que ambos puertos de red se caigan, ya que están conectados a un conmutador diferente.
b) También se descarta la posibilidad de un problema en toda la Vlan, ya que otros dispositivos en la misma Vlan están bien.
c) El estado de la interfaz del conmutador siempre está activo. Pero hay muchas caídas de paquetes durante el período de interrupción: se puede atribuir a la alta utilización de la interfaz del servidor de respaldo (cerca del 100 %).
d) La conectividad se restablece sin ningún cambio en la red.
El siguiente sospechoso es la utilización de recursos en el servidor Windows. Tanto la CPU como la memoria rara vez han superado el 80 %, pero la utilización de la tarjeta NIC es alarmantemente alta (cerca del 100 %).
¿No estás seguro de cómo investigar esto?
Respuesta1
Sospecho que hay problemas con el controlador o una discrepancia en el dúplex. Intente actualizar los controladores y verifique que el dúplex en cada extremo sea el mismo. Consulta también las estadísticas de ethernet del switch (si tienes errores, colisiones, etc...).
Que significapierde conectividad de red? ¿No es accesible, pero la interfaz está activa? ¿Es accesible pero tiene mucha pérdida de paquetes?
Respuesta2
¿Intentaste cambiar la tarjeta de red?
Respuesta3
¿Cómo calculas que pierde conectividad de red? ¿Qué quieres decir exactamente con eso? ¿Tiene algo monitoreándolo que le indique que no se puede acceder a él? ¿Hay algo en los registros de eventos? En caso afirmativo, ¿qué?
Si la utilización de la red es alta, es decir, hasta el punto en que está completamente saturada, es posible que vea lo que parece ser una conexión interrumpida. Sin embargo, es difícil saberlo según su descripción. Sin embargo, supongo que su trabajo de respaldo está maximizando su tubería. ¿Tiene una tarea de respaldo que se ejecuta cada dos días :)
Respuesta4
¿Qué tipo de interruptor es?
¿Otros dispositivos en el mismo conmutador están experimentando algún problema de comunicación cuando ocurre este problema específico? Aunque es raro e improbable, es posible que esté agotando recursos finitos en ese conmutador y, en cierto sentido, utilizando DOS.
Además, si cuenta con mecanismos para evitar el DOS, básicamente podrían bloquear su servidor problemático hasta que los patrones de uso vuelvan a la normalidad.