Geringe Leistung auf HPC-Cluster (SGE) beim Ausführen mehrerer Jobs

Geringe Leistung auf HPC-Cluster (SGE) beim Ausführen mehrerer Jobs

Ich weiß, das ist weit hergeholt, aber ich habe hier keine Ahnung. Ich führe mehrere Computersimulationen auf einem High Performance Computation Cluster (HPC) der Oracle Grid Engine (SGE) aus. Ein einzelner Job läuft mit einer bestimmten Geschwindigkeit (ungefähr 80 Schritte pro Sekunde). Wenn ich Jobs zur Maschine hinzufüge, wird die Geschwindigkeit ab einem bestimmten Schwellenwert um zwei reduziert. Auf einer Maschine (ich kenne den CPU-Typ nicht) liegt der Schwellenwert bei 11 Jobs für 16 CPUs. Auf einer anderen mit der gleichen Anzahl und Art von CPUs liegt der Schwellenwert bei 8.

Zuerst dachte ich, es handele sich um ein Speicherproblem, aber jeder Job benötigt etwa 60–100 MB und ich habe auf jedem dieser Rechner 16 GB RAM.

Ist jemandem von Ihnen ein solches Problem begegnet? Gibt es eine Möglichkeit, dies zu analysieren?

Danke.

Antwort1

Ohne die Konfiguration Ihres Clusters zu kennen, frage ich mich, ob die CPUs Hyperthreating verwenden. Die hyperthreating-Kerne werden als doppelt so viele physische Kerne angezeigt, aber die Rechenleistung steigt für die nicht-physischen Kerne möglicherweise nicht linear an.

https://superuser.com/questions/279629/wie viel Geschwindigkeit erreicht ein Hyperthread?

Antwort2

Dafür kann es mehrere Gründe geben.

Obwohl Ihre Jobs nicht viel Speicher verbrauchen, füllen sie möglicherweise den Speicherbus (der die CPUs mit dem RAM verbindet). Wenn der Bus voll ist, führt das Hinzufügen weiterer Jobs nur zu mehr Druck auf den Speicherbus, was alles verlangsamt.

Ein weiterer möglicher Grund ist die E/A. Wenn Ihre Jobs viele Dateioperationen ausführen (z. B. Dateioperationen öffnen/schreiben/schließen), kann die Festplatte im System möglicherweise nicht mithalten, wenn zu viele Jobs gleichzeitig ausgeführt werden.

Weitere Gründe sind andere Engpässe in den CPUs, beispielsweise gemeinsam genutzte Caches oder Gleitkomma-Ausführungseinheiten.

verwandte Informationen