Lustre の不具合: 数分の遅延

Lustre の不具合: 数分の遅延

HPC lustre ファイルシステムを使用すると、ターミナルを開いて「ls」と入力するだけでも、戻るまでに数分かかるという不具合が時々発生します。つまり、ファイルシステムに関係するプロセスにはランダムに大きな遅延が発生しますが (ただし、通常は実際のエラーは発生しません)、ファイルシステムに関係しないプロセス (x-windows セッションでウィンドウをドラッグするなど) は応答し続けます。

Lustre が断続的に過度の遅延を示す原因として考えられるものは何ですか? (ハードウェア障害、構成ミス、ファイルシステムがほぼいっぱい、またはその日の分散並列ジョブによる厄介な使用パターンなどでしょうか?)

関連情報