Existe uma caixa Linux.
Há um dispositivo Netapp defeituoso que serve armazenamento.
Eles estão na mesma sub-rede, portanto, teoricamente, não é necessário roteamento.
O problema:Às vezes conseguimos acessar o LIF do netapp, da caixa do Linux, às vezes não conseguimos (de acordo com o tcpdump ele simplesmente não responde).
A questão:o que poderia causar tal problema?
ATUALIZAÇÃO#1: criou estatísticas sobre quando é bom, ruim, com:
while true; do (nc -w 1 -z IPADDRESSHERE 22 && printf "good\t") || printf "bad\t"; date; sleep 1; done > testing.txt
Então, a cada segundo, o netcat tenta se conectar da caixa Linux -> ao Netapp.
# grep -w bad testing.txt | wc -l; grep -w good testing.txt | wc -l
520
480
#
Ao tentar 1000 vezes, obtivemos um SSH 520 vezes e 480 vezes o tempo limite expirou, então cerca de 52% bom, ~ 48% ruim. Talvez 50-50%? Poderia ser algum problema semelhante ao failover?
ATUALIZAÇÃO#2: outra coisa interessante é que o Netapp ruim não pode ser pingado, enquanto todos os outros Netapp podem ser pingados.