Lustre-Fehler: Latenz von Minuten

Lustre-Fehler: Latenz von Minuten

Bei Verwendung eines HPC-Lustre-Dateisystems kommt es gelegentlich zu Störungen, bei denen es sogar mehrere Minuten dauern kann, bis das Ergebnis wieder angezeigt wird, wenn man einfach ein Terminal öffnet und „ls“ eingibt. Das heißt, jeder Prozess, der das Dateisystem einbezieht, weist zufällige massive Latenzen auf (erzeugt aber im Allgemeinen keine tatsächlichen Fehler), und Prozesse, die das Dateisystem nicht einbeziehen (wie das Verschieben von Fenstern in einer X-Windows-Sitzung), reagieren weiterhin.

Was kann möglicherweise dazu führen, dass Lustre zeitweise übermäßige Latenz aufweist? (Ist es zwangsläufig ein Hardwarefehler, eine Fehlkonfiguration, ein fast volles Dateisystem oder einfach ein unangenehmes Nutzungsmuster aufgrund eines verteilten parallelen Jobs an diesem Tag?)

verwandte Informationen