
df/du 불일치 주제에 대해 많은 논의가 있었다는 것을 알고 있습니다. 하지만 여기서는 특별한 이슈를 게시하고 몇 가지 힌트를 요청하겠습니다. 자세한 내용은 다음과 같습니다(6개의 SAS 디스크가 있는 하드웨어 raid5 사용).
- nfs 서버/클라이언트의 시스템 정보: [root@ndio06 ~]# cat /etc/풀어 주다|grep CentOS CentOS Linux 릴리스 7.6.1810(코어) NAME="CentOS Linux" PRETTY_NAME="CentOS Linux 7(코어)" CENTOS_MANTISBT_PROJECT="CentOS-7" CentOS Linux 릴리스 7.6.1810(코어) [root@ndio06 ~] # uname -a Linux ndio06 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux [root@ndio06 ~]# rpm -qa|grep nfs-util nfs -utils-1.3.0-0.61.el7.x86_64
nfs 서버는 일반적으로 많은 프로세스와 IO 작업이 포함된 48개의 바쁜 노드를 처리하는 데 과부하가 걸립니다.
df/du가 정렬되지 않았고 간격이 큽니다: [root@ndio06 ~]# df -hl /CAE;du -sh /CAE 파일 시스템 크기 사용 가능 사용% 마운트됨 /dev/sdb1 5.0T 3.6T 1.4T 73% /CAE 736G /CAE
nfs 서버 또는 40개 이상의 클라이언트에 "삭제되었지만 사용 중" 파일이 없습니다. [root@pbs ~]# for node in
pestat|grep ndpam02|awk {'print $1'}|grep -v io
; do echo --$node--;ssh $node lsof +D /CAE|grep -i "삭제됨" ;done --nd065-- --nd066-- --nd067-- ......... .클라이언트의 마운트 옵션:
ndio06-ib:/CAE 유형 nfs4의/CAE(rw,relatime,vers=4.1,rsize=1048576,wsize=1048576,namlen=255,soft,proto=tcp,timeo=600,retrans=2,sec=sys, 클라이언트주소=192.168.1.72,local_lock=없음,주소=192.168.1.161)
- 관찰된 내용: — 마운트 해제 후 xfs_repair를 실행하면 문제가 해결되지만 몇 주 후에 다시 발생합니다. 불행히도 RAID/디스크에 물리적 문제가 있는지 확인하기 위해 수리 중에 정보를 캡처하지 않았습니다.
- nfsd 서비스를 다시 시작하면 문제가 해결되고 df는 몇 번 시도한 후에 올바른 비율을 제공하거나(각 시도마다 사용 비율이 낮아짐) 몇 분 동안 기다립니다. 다시 말하지만 이는 임시 수정일 뿐이며 며칠 또는 몇 주 후에 문제가 발생할 수 있습니다.
- df가 100% 사용량을 보고하지 않는 한 nfs 서비스는 계속 응답합니다. nfsd 스레드 번호는 8로 설정됩니다.
누구든지 이 문제에 대해 친절하게 설명해 줄 수 있습니까? 필요한 경우 추가 정보를 제공할 수 있습니다.
감사해요.