Netzwerkdateisystem schlägt bei hohen E/A-Geschwindigkeiten fehl

Question

Einige im Laufe der Jahre gelernte Vorschläge.

Minimieren Sie die Belastung des NFS-Servers:

NFS-Exportoptionen festlegen:async,insecure,no_subtree_check

NFS-Mount-Optionen festlegensoft,noatime,nodiratime,nolock,vers=3

auch eingestellt: noatime,nodiratimebei Daten-/Temporär-/Scratch-Mounts. Stellen Sie sicher, dass die NFS-Verschlüsselung ausgeschaltet ist, um die Belastung zu reduzieren. Stoppen Sie den NFS-Sperrvorgang.

Versuchen Sie, die JUMBO-Frames für das Netzwerk auf allen Hosts zu aktivieren (sofern von der Netzausrüstung unterstützt) – stellen Sie die MTU auf etwa 9k ein.
Stellen Sie sicher, dass der RAID10-Speicher für zufällige Schreib-E/A verwendet wird (vermeiden Sie RAID5/6 um jeden Preis). Gibt es SSDs?
Maximieren Sie die Anzahl der geöffneten FS-Handles (der Standardwert liegt bei einigen Systemen bei 2 KB) und stellen Sie ihn auf etwa 1 MB ein.
Besteht die Möglichkeit, die Mapping-Datenbank mit den Eingabedaten in den lokalen Scratch-Node-Speicher zu kopieren und die resultierenden SAM-Dateien dann in einem separaten Schritt zu kombinieren/sortieren?
Erhöhen Sie die Größe des verarbeiteten Blocks (so dass er mindestens 30 Minuten oder länger verarbeitet wird).
Wenn möglichAufteilung der Jobs auf höchstem Niveau(Versuchen Sie, 10 separate Genome/Proben auf 10 verschiedenen Knoten parallel abzubilden/sortieren, anstatt zu versuchen, jedes Genom nacheinander mithilfe von 10 Hosts abzubilden.) Versuchen Sie Checkpoints zu setzen, nachdem alle Prozesse abgeschlossen sind.
Ändern Sie eine Programmquelle, sodass sie Daten in größeren Blöcken liest – etwa 1 MB statt 4 K.
Beachten Sie die CPU/RAM-Verbindungskonflikte (insbesondere bei AMD-Systemen mit 4-8 Sockeln). Manchmal ist das Ausführen von 12-24 Threads auf einer 48-Core-Box viel schneller als das Ausführen von 48 Threads. Probieren Sie verschiedene Auslastungsstufen aus. Stellen Sie sicher, dass NUMA aktiviert und für Multi-CPU-Systeme konfiguriert ist. Kompilieren Sie mit aktiviertem NUMA neu.

PS: Die Verwaltung eines effizienten Clusters ist vergleichbar mit der Planung/Verwaltung einer Baustelle mit mehr als 1.000 Arbeitern …

Answer 1