NFS サーバーの再起動後に ls がハングする

Question 1

フォークして、子プロセスをディレクトリに進ませ、その後子プロセスを終了させることができます。親プロセスにタイムアウトを設定して子プロセスの存在を監視させます。古いマウントがあると、子プロセスは終了できず、長時間そのまま残り続けるため、親プロセスでタイムアウトが発生します。親プロセスに子プロセスを kill -9 してアンマウントを試行させます。

ただし、発生する可能性のある問題は、壊れたマウント上のファイルを他のプロセスが使用している場合、まずそれらのプロセスを終了しないとマウント解除できないことです。lsof または fuser を使用すると、古いマウント上の利用できないリソースを使用しているプロセスがあるかどうかを (多くの場合) 検出できます。

ただし、任意のプロセスを自動的に強制終了することは避け、手動でさらに調査するための通知を自分自身に送信してください。

この問題が発生する可能性を減らすには、ボリュームが必要になるまで、またはサーバー上のリソースが要求されるまでボリュームをマウントせず、不要になったら自動的にアンマウントする自動マウント機能を検討することをお勧めします。

-- ちなみに、これをさらに検索しやすくするには、stale、stuck、nfs、mount という単語でタグ付けすることをお勧めします。この現象は、ec2 の使用に固有のものではありません。

Answer