NFS 伺服器對客戶端無回應 - 進程「遷移」和「xfssyncd」消耗異常的 CPU

Question

我的 RHEL 6.10 也有類似問題。唯一有幫助的似乎是終止 NFS 用戶端上長時間運行的用戶 sftp 進程。這些進程由基於 GUI 的 SFTP 用戶端（例如 WinSCP、Nimble Commander）保持開啟多個小時（> 10 小時）。

監控顯示一些 NFSv3 用戶端活動與該問題相符，但該活動實際上低於其他不會導致問題的客戶端（有 > 100 個客戶端）上的其他典型活動。

實際上也沒有完成很多 I/O。

2019-12-10 更新：根本原因似乎是 NFS 伺服器上的 XFS 配額。使用者主目錄具有配額，軟限制比硬限制低 2 GB。一些用戶嘗試安裝完整的 Anaconda Python，這超出了軟限制。 Anaconda 安裝程式似乎沒有辦法攔截警告，並且不斷下載超過軟限制的檔案。這產生了大量的配額警告，使系統完全陷入困境，並使其反應遲鈍。

我說「似乎」是因為證據是間接的。當使用者嘗試安裝到沒有配額的目錄中時，一切都很順利。

Answer 1