Langsame NFS- und GFS2-Leistung

Question 1

Ich kann nur einige allgemeine Hinweise geben.

Zuerst würde ich einige einfache Benchmark-Metriken einrichten und ausführen. Dann wissen Sie zumindest, ob die von Ihnen vorgenommenen Änderungen die besten sind.

Munin
Kakteen
Nagios

sind einige gute Möglichkeiten.

Handelt es sich bei diesen Knoten um virtuelle oder physische Server und wie sind ihre Spezifikationen?

Welche Art von Netzwerkverbindung besteht zwischen den einzelnen Knoten?

Ist NFS über das private Netzwerk Ihres Hosting-Anbieters eingerichtet?

Sie beschränken Pakete/Ports nicht mit Firewalls. Tut Ihr Hosting-Anbieter dies?

Answer

Ich kann nur einige allgemeine Hinweise geben.

Zuerst würde ich einige einfache Benchmark-Metriken einrichten und ausführen. Dann wissen Sie zumindest, ob die von Ihnen vorgenommenen Änderungen die besten sind.

Munin
Kakteen
Nagios

sind einige gute Möglichkeiten.

Handelt es sich bei diesen Knoten um virtuelle oder physische Server und wie sind ihre Spezifikationen?

Welche Art von Netzwerkverbindung besteht zwischen den einzelnen Knoten?

Ist NFS über das private Netzwerk Ihres Hosting-Anbieters eingerichtet?

Sie beschränken Pakete/Ports nicht mit Firewalls. Tut Ihr Hosting-Anbieter dies?

Question 2

Ich denke, Sie haben zwei Probleme. Ein Engpass, der das Problem überhaupt erst verursacht, und, was noch wichtiger ist, eine schlechte Fehlerbehandlung durch GFS. GFS sollte die Übertragung wirklich verlangsamen, bis sie funktioniert, aber ich kann dabei nicht helfen.

Sie sagen, dass der Cluster ca. 200 GB neue Dateien in das NFS verarbeitet. Wie viele Daten werden aus dem Cluster gelesen?

Ich wäre immer nervös, wenn es für das Frontend und das Backend nur eine Netzwerkverbindung gäbe, da das Frontend das Backend „direkt“ beschädigen könnte (durch Überlastung der Datenverbindung).

Wenn Sie iperf auf jeder der Boxen installieren, können Sie den verfügbaren Netzwerkdurchsatz zu jedem beliebigen Zeitpunkt testen. Auf diese Weise können Sie schnell feststellen, ob bei Ihnen ein Netzwerkengpass vorliegt.

Wie stark ist das Netzwerk ausgelastet? Wie schnell sind die Festplatten auf dem Speicherserver und welches RAID-Setup verwenden Sie? Welchen Durchsatz erzielen Sie damit? Vorausgesetzt, es läuft *nix und Sie haben einen ruhigen Moment zum Testen, können Sie hdparm verwenden.

$ hdpard -tT /dev/<device>

Wenn Sie eine starke Netzwerkauslastung feststellen, würde ich vorschlagen, GFS auf einer sekundären und dedizierten Netzwerkverbindung zu installieren.

Je nachdem, wie Sie die 12 Festplatten raiden, kann die Leistung unterschiedlich ausfallen, und das könnte der zweite Engpass sein. Es hängt auch davon ab, ob Sie Hardware- oder Software-RAID verwenden.

Der große Speicher, den Sie auf der Box haben, ist möglicherweise von geringem Nutzen, wenn die angeforderten Daten über mehr als Ihren gesamten Speicher verteilt sind, was anscheinend der Fall ist. Außerdem kann der Speicher nur beim Lesen helfen, und das auch nur, wenn viele der Lesevorgänge für dieselbe Datei erfolgen (sonst würde sie aus dem Cache geworfen).

Achten Sie beim Ausführen von top / htop auf iowait. Ein hoher Wert ist hier ein ausgezeichneter Indikator dafür, dass die CPU nur Däumchen dreht und auf etwas wartet (Netzwerk, Festplatte usw.).

Meiner Meinung nach ist NFS weniger wahrscheinlich der Übeltäter. Wir haben ziemlich viel Erfahrung mit NFS und obwohl es angepasst/optimiert werden kann,neigtziemlich zuverlässig zu funktionieren.

Ich würde dazu neigen, die GFS-Komponente stabil zu machen und dann zu sehen, ob die Probleme mit NFS verschwinden.

Schließlich könnte OCFS2 eine Option sein, die als Ersatz für GFS in Betracht gezogen werden könnte. Während meiner Recherchen zu verteilten Dateisystemen habe ich ziemlich viel recherchiert und kann mich nicht mehr an die Gründe erinnern, warum ich mich für OCFS2 entschieden habe – aber ich habe es getan. Vielleicht hatte es etwas damit zu tun, dass OCFS2 von Oracle für seine Datenbank-Backends verwendet wird, was ziemlich hohe Stabilitätsanforderungen mit sich bringen würde.

Munin ist dein Freund. Aber viel wichtiger ist top / htop. vmstat kann dir auch einige wichtige Zahlen geben

$ vmstat 1

und Sie erhalten jede Sekunde ein Update darüber, womit das System seine Zeit genau verbringt.

Viel Glück!

Answer

Ich denke, Sie haben zwei Probleme. Ein Engpass, der das Problem überhaupt erst verursacht, und, was noch wichtiger ist, eine schlechte Fehlerbehandlung durch GFS. GFS sollte die Übertragung wirklich verlangsamen, bis sie funktioniert, aber ich kann dabei nicht helfen.

Sie sagen, dass der Cluster ca. 200 GB neue Dateien in das NFS verarbeitet. Wie viele Daten werden aus dem Cluster gelesen?

Ich wäre immer nervös, wenn es für das Frontend und das Backend nur eine Netzwerkverbindung gäbe, da das Frontend das Backend „direkt“ beschädigen könnte (durch Überlastung der Datenverbindung).

Wenn Sie iperf auf jeder der Boxen installieren, können Sie den verfügbaren Netzwerkdurchsatz zu jedem beliebigen Zeitpunkt testen. Auf diese Weise können Sie schnell feststellen, ob bei Ihnen ein Netzwerkengpass vorliegt.

Wie stark ist das Netzwerk ausgelastet? Wie schnell sind die Festplatten auf dem Speicherserver und welches RAID-Setup verwenden Sie? Welchen Durchsatz erzielen Sie damit? Vorausgesetzt, es läuft *nix und Sie haben einen ruhigen Moment zum Testen, können Sie hdparm verwenden.

$ hdpard -tT /dev/<device>