Linux ボックスがあります。
ストレージを提供する Netapp デバイスに不具合があります。
これらは同じサブネット内にあるため、理論的にはルーティングは必要ありません。
問題:Linux ボックスから netapp の LIF にアクセスできる場合もあれば、アクセスできない場合もあります (tcpdump によると、応答しないだけです)。
質問:このような問題の原因は何でしょうか?
アップデート#1: 良いとき、悪いときについての統計を作成しました:
while true; do (nc -w 1 -z IPADDRESSHERE 22 && printf "good\t") || printf "bad\t"; date; sleep 1; done > testing.txt
したがって、netcat は毎秒、Linux ボックスから Netapp への接続を試行します。
# grep -w bad testing.txt | wc -l; grep -w good testing.txt | wc -l
520
480
#
1000 回試行すると、520 回 SSH が成功し、480 回はタイムアウトになりました。つまり、約 52% は成功、約 48% は失敗です。おそらく 50%/50% でしょうか。フェイルオーバーのような問題でしょうか。
アップデート#2: もう一つの興味深い点は、問題のある Netapp は ping できないのに対し、他のすべての Netapp は ping 可能であることです。