NFS-Server reagiert nicht auf Clients – die Prozesse „Migration“ und „xfssyncd“ verbrauchen ungewöhnlich viel CPU

Question

Ich habe einen RHEL 6.10 mit ähnlichen Problemen. Das einzige, was zu helfen scheint, ist, lang laufende Benutzer-SFTP-Prozesse auf dem NFS-Client zu beenden. Dabei handelte es sich um Prozesse, die von GUI-basierten SFTP-Clients (z. B. WinSCP, Nimble Commander) viele Stunden (> 10 Stunden) lang offen gehalten wurden.

Die Überwachung zeigt, dass einige NFSv3-Client-Aktivitäten mit dem Problem zusammenfallen, tatsächlich ist die Aktivität jedoch geringer als eine andere typische Aktivität auf anderen Clients (es gibt > 100 Clients), die das Problem nicht verursacht.

Es wird auch nicht wirklich viel E/A durchgeführt.

UPDATE 2019-12-10: Die Hauptursache scheinen XFS-Kontingente auf dem NFS-Server gewesen zu sein. Den Home-Verzeichnissen der Benutzer werden Kontingente auferlegt, wobei das Soft-Limit 2 GB unter dem Hard-Limit liegt. Einige Benutzer versuchten, eine vollständige Anaconda Python zu installieren, die das Soft-Limit überschritt. Das Anaconda-Installationsprogramm schien keine Möglichkeit zu haben, die Warnungen abzufangen, und lud weiterhin Dateien über das Soft-Limit hinaus herunter. Dies führte zu einer enormen Anzahl von Kontingentwarnungen, die das System völlig ausbremsten und es reaktionslos machten.

Ich sage „scheint“, weil die Beweise nur Indizien sind. Als die Benutzer versuchten, die Installation in einem Verzeichnis ohne Kontingent durchzuführen, lief alles problemlos.

Answer 1

Ich habe einen RHEL 6.10 mit ähnlichen Problemen. Das einzige, was zu helfen scheint, ist, lang laufende Benutzer-SFTP-Prozesse auf dem NFS-Client zu beenden. Dabei handelte es sich um Prozesse, die von GUI-basierten SFTP-Clients (z. B. WinSCP, Nimble Commander) viele Stunden (> 10 Stunden) lang offen gehalten wurden.

Die Überwachung zeigt, dass einige NFSv3-Client-Aktivitäten mit dem Problem zusammenfallen, tatsächlich ist die Aktivität jedoch geringer als eine andere typische Aktivität auf anderen Clients (es gibt > 100 Clients), die das Problem nicht verursacht.

Es wird auch nicht wirklich viel E/A durchgeführt.

UPDATE 2019-12-10: Die Hauptursache scheinen XFS-Kontingente auf dem NFS-Server gewesen zu sein. Den Home-Verzeichnissen der Benutzer werden Kontingente auferlegt, wobei das Soft-Limit 2 GB unter dem Hard-Limit liegt. Einige Benutzer versuchten, eine vollständige Anaconda Python zu installieren, die das Soft-Limit überschritt. Das Anaconda-Installationsprogramm schien keine Möglichkeit zu haben, die Warnungen abzufangen, und lud weiterhin Dateien über das Soft-Limit hinaus herunter. Dies führte zu einer enormen Anzahl von Kontingentwarnungen, die das System völlig ausbremsten und es reaktionslos machten.

Ich sage „scheint“, weil die Beweise nur Indizien sind. Als die Benutzer versuchten, die Installation in einem Verzeichnis ohne Kontingent durchzuführen, lief alles problemlos.

NFS-Server reagiert nicht auf Clients – die Prozesse „Migration“ und „xfssyncd“ verbrauchen ungewöhnlich viel CPU

Antwort1

verwandte Informationen