
Estamos enfrentando um problema estranho em nosso data center. Nosso servidor de backup (executando o EMC Networker) perde a conexão de rede todos os dias alternados por volta das 3h (a programação do backup começa à meia-noite). Após 2 horas de interrupção, a conectividade da rede se recupera automaticamente e volta ao normal.
O que observamos:
É improvável que seja um problema de rede, uma vez que está diretamente conectado ao switch do farm de servidores (conexão de camada 2 sem saltos intermediários). Além disso, o servidor está conectado a dois switches diferentes para balanceamento de carga usando o Broadcomm Teaming.
a) Se fosse um problema relacionado ao switch, é improvável que ambas as portas de rede fiquem inativas, pois estão conectadas a switches diferentes.
b) Uma possibilidade de problema em toda a Vlan também está descartada, uma vez que outros dispositivos na mesma Vlan estão bem.
c) O status da interface do switch está sempre ativo. Mas há muitas quedas de pacotes durante o período de interrupção - pode ser atribuído à alta utilização da interface do servidor de backup (perto de 100%)
d) A conectividade é restaurada sem qualquer alteração na rede.
O próximo suspeito é a utilização de recursos no servidor Windows. Tanto a CPU quanto a memória raramente ultrapassaram 80%, mas a utilização da placa NIC é alarmantemente alta (perto de 100%)
Não tem certeza de como investigar isso?
Responder1
Suspeito de problemas de driver ou incompatibilidade duplex. Tente atualizar os drivers e verifique se o duplex em cada extremidade é o mesmo. Verifique também as estatísticas Ethernet do switch (se houver erros, colisões etc...).
O que significaperde conectividade de rede? Não está acessível, mas a interface está ativa? É acessível, mas tem muita perda de pacotes?
Responder2
Você tentou trocar a placa de rede?
Responder3
Como você está descobrindo que ele perde a conectividade de rede? O que você quer dizer exatamente com isso? Você tem algo monitorando isso que diz que não pode ser alcançado? Há alguma coisa nos logs de eventos, em caso afirmativo, o que?
Se a utilização da rede for alta, ou seja, ao ponto em que está totalmente saturada, você poderá ver o que parece ser uma queda de conexão. No entanto, é difícil dizer com base na sua descrição. Meu palpite é que seu trabalho de backup está maximizando seu canal. Você tem uma tarefa de backup que é executada dia sim, dia não :)
Responder4
Que tipo de interruptor é esse?
Outros dispositivos no mesmo switch estão enfrentando algum problema de comunicação quando esse problema específico está ocorrendo? Embora raro e improvável, você pode estar esgotando recursos finitos nesse switch e, de certa forma, fazendo o DOS sozinho.
Além disso, se você tiver mecanismos para impedir o DOS, eles poderão essencialmente bloquear seu servidor problemático até que os padrões de uso retornem ao normal.