df 與 du 有很大不同,nfsd 服務似乎很重要

df 與 du 有很大不同,nfsd 服務似乎很重要

我知道關於 df/du 差異的話題已經有很多討論了。但在這裡我會發布一個特殊問題並尋求一些提示。這是詳細資訊(使用帶有 6 個 sas 磁碟的硬體 raid5)

  1. nfs 伺服器/客戶端的系統資訊: [root@ndio06 ~]# cat /etc/發布|grep CentOS CentOS Linux 版本 7.6.1810(核心) NAME="CentOS Linux" PRETTY_NAME="CentOS Linux 7(核心)" CENTOS_MANTISBT_PROJECT="CentOS-7" CentOS Linux 版本 7.6.1810(核心) [root@ndio06 ~] # uname -a Linux ndio06 3.10.0-957.el7.x86_64 #1 SMP 11 月8 日星期四23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux [root@nfs多 ~pgre util nfs -utils-1.3.0-0.61.el7.x86_64

nfs 伺服器通常負載很重,為 48 個繁忙節點提供服務,有大量進程和 io 操作。

  1. df/du 未對齊,差距巨大: [root@ndio06 ~]# df -hl /CAE;du -sh /CAE Filesystem Sizeused Avail Use% Mounted on /dev/sdb1 5.0T 3.6T 1.4T 73% /CAE 736G / CAE

  2. nfs 伺服器或 40 多個客戶端上沒有「已刪除但正在使用」的檔案:[root@pbs ~]# for 中的節點pestat|grep ndpam02|awk {'print $1'}|grep -v io; do echo --$node--;ssh $node lsof +D /CAE|grep -i "已刪除" ;done --nd065-- --nd066-- --nd067--........ 。

  3. 客戶端上的掛載選項:

ndio06-ib:/CAE 上 /CAE 類型 nfs4 (rw,relatime,vers=4.1,rsize=1048576,wsize=1048576,namlen=255,soft,proto=tcp,timeo=600,retrans=2,sec=sys, clientaddr = 192.168.1.72,local_lock =無,addr = 192.168.1.161)

  1. 觀察到的情況: — 卸載後進行 xfs_repair 可以解決該問題,但幾週後它會再次出現。不幸的是,我在修復過程中沒有捕獲資訊來查看 raid/磁碟是否存在任何物理問題。
  • 重新啟動 nfsd 服務將修復它,並且 df 在幾次嘗試後將給出正確的百分比(每次嘗試都會獲得較低的使用百分比)或等待幾分鐘。同樣,這只是臨時修復,幾天或幾週後問題就會出現。
  • 除非 df 報告 100% 使用率,否則 nfs 服務仍會回應。 nfsd 執行緒數設定為 8。

任何人都可以解釋這個問題嗎?如果需要可以提供更多資訊。

謝謝。

相關內容