dfはduと大きく異なります。nfsdサービスは問題になるようです

2024-6-23 • tag-icon

df/du の不一致に関する話題については多くの議論があることは承知しています。しかし、ここでは特別な問題を投稿し、ヒントをいくつか求めたいと思います。詳細は次のとおりです (ハードウェア RAID5 と 6 つの SAS ディスクを使用)

NFS サーバー/クライアントのシステム情報: [root@ndio06 ~]# cat /etc/リリース|grep CentOS CentOS Linux リリース 7.6.1810 (コア) NAME="CentOS Linux" PRETTY_NAME="CentOS Linux 7 (コア)" CENTOS_MANTISBT_PROJECT="CentOS-7" CentOS Linux リリース 7.6.1810 (コア) [root@ndio06 ~]# uname -a Linux ndio06 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux [root@ndio06 ~]# rpm -qa|grep nfs-util nfs-utils-1.3.0-0.61.el7.x86_64

NFS サーバーは通常、多数のプロセスや IO 操作を実行する 48 個のビジーノードにサービスを提供する高負荷状態にあります。

df/du が整列しておらず、ギャップが非常に大きい: [root@ndio06 ~]# df -hl /CAE;du -sh /CAE ファイルシステムサイズ使用済み使用可能使用率 /dev/sdb1 にマウント 5.0T 3.6T 1.4T 73% /CAE 736G /CAE
NFS サーバーまたは 40 台以上のクライアントに「削除されたが使用中」のファイルはありません: [root@pbs ~]# for node in pestat|grep ndpam02|awk {'print $1'}|grep -v io; do echo --$node--;ssh $node lsof +D /CAE|grep -i "deleted" ;done --nd065-- --nd066-- --nd067-- ..........
クライアントのマウントオプション:

ndio06-ib:/CAE on /CAE type nfs4 (rw、relatime、vers=4.1、rsize=1048576、wsize=1048576、namlen=255、soft、proto=tcp、timeo=600、retrans=2、sec=sys、clientaddr=192.168.1.72、local_lock=none、addr=192.168.1.161)

観察されたこと: — アンマウント後の xfs_repair で問題は解決しますが、数週間後に再び発生します。残念ながら、修復中に RAID/ディスクに物理的な問題があるかどうかを確認するための情報を取得できませんでした。

nfsd サービスを再起動すると問題は解決し、df は数回の試行 (試行ごとに使用率が低くなります) または数分間待機すると正しいパーセンテージを返します。繰り返しますが、これは一時的な修正にすぎず、問題は数日または数週間後に発生します。
df が 100% の使用率を報告しない限り、nfs サービスは応答し続けます。nfsd スレッド番号は 8 に設定されています。

どなたかこの問題について親切に説明していただけますか? 必要であればさらに情報を提供できます。

ありがとう。

関連情報