Es gibt eine Linux-Box.
Es gibt ein fehlerhaftes Netapp-Gerät, das als Speicher dient.
Sie befinden sich im selben Subnetz, sodass theoretisch kein Routing erforderlich ist.
Das Problem:Manchmal können wir das LIF der Netapp von der Linux-Box aus erreichen, manchmal nicht (laut tcpdump antwortet es einfach nicht).
Die Frage:was könnte ein solches Problem verursachen?
UPDATE #1: erstellte Statistiken darüber, wann es gut oder schlecht ist, mit:
while true; do (nc -w 1 -z IPADDRESSHERE 22 && printf "good\t") || printf "bad\t"; date; sleep 1; done > testing.txt
Daher versucht Netcat jede Sekunde, eine Verbindung von der Linux-Box zur Netapp herzustellen.
# grep -w bad testing.txt | wc -l; grep -w good testing.txt | wc -l
520
480
#
Bei 1000 Versuchen haben wir 520 Mal ein SSH erhalten und 480 Mal ist es einfach abgelaufen, also ungefähr 52 % gut, 48 % schlecht. Vielleicht 50-50 %? Könnte ein Failover-ähnliches Problem sein?
UPDATE #2: Eine andere interessante Sache ist, dass die fehlerhafte Netapp nicht angepingt werden kann, während alle anderen Netapps pingbar sind.