HPC/EC2 – NFS für Zuverlässigkeit optimieren

HPC/EC2 – NFS für Zuverlässigkeit optimieren

In AWS-EC2 habe ich einen Cluster aus virtuellen Linux-Maschinen eingerichtet, der aus einem NFS-Dateiserver und vielen Clients besteht. Wenn die Anzahl der Clients über ~20 liegt, kommt es bei hohem I/O zu einem Verlust der Dateiintegrität: Beispielsweise sind von einem Client auf den Server geschriebene gzippte Dateien beschädigt.

Ich frage mich, welcher NFS-Parametersatz am besten geeignet ist, umZuverlässigkeitder Datenübertragung in dieser Umgebung.

Derzeit lauten die Mount-Flags:

Flags:  rw,vers=3,rsize=262144,wsize=262144,hard,proto=tcp,timeo=600,retrans=2

Die MTU-Größe beträgt 1500, die Anzahl der NFS-Daemons beträgt 8.

Sollte ich rsize und wsize unter die MTU verringern und die Anzahl der NFS-Daemons erhöhen?

Gibt es sonst noch etwas, das verbessert werden kann?

Vielen Dank.

Antwort1

Für die Größe des verwendeten Clusters kann es sinnvoll sein, auf ein paralleles Dateisystem umzusteigen, wieglitzern. Alternativ sollte, wenn der Cluster richtig konfiguriert ist, jeder Knoten jeden anderen Knoten kennen, entweder über DNS oder durch Lookups, /etc/hostsund sollte über die entsprechenden SSH-Schlüssel verfügen, um ohne Kennwort auf sie zugreifen zu können.

In diesem Fall könnte jeder Knoten die Dateien nach Abschluss der Berechnung/Komprimierung einfach kopieren, wodurch NFS überflüssig würde. Diese Lösung bietet zwar wahrscheinlich keine optimale Leistung, kann aber je nach Art der Virtualisierung von Rechenknoten, Netzwerk und Speicher eine gute Option sein.

Welche Art von Cluster-Management-/Bereitstellungssystem verwenden Sie? Normalerweise wird beim Einrichten eines Hauptknotens auch der entsprechende gemeinsam genutzte Speicher für Rechenknoten eingerichtet. Mit einem Tool wieWarewulfoderFELSENkönnen dazu beitragen, sicherzustellen, dass Rechenknoten richtig bereitgestellt werden. Zudem sind zahlreiche Anleitungen und Referenzdesigns zum Einrichten von Clustern mit diesen Tools online verfügbar.

verwandte Informationen