Dell PowerEdge R7525 + Nvidia A16

Dell PowerEdge R7525 + Nvidia A16

Wir haben einen PowerEdge R7525-Server mit NVIDIA A16-Grafikkarte unter Debian 11. Aber unsere GPU-Leistung ist um etwa 50 % niedriger als bei anderen Servern. Ich vermute, es liegt an der fehlenden Option „Above 4G decoding“ im BIOS. Laut NVIDIA sollte dieser Server bis zu 3 A16-GPU-Einheiten verarbeiten können. Kann mir jemand einen Workaround oder etwas anderes empfehlen, um die volle Leistung dieser GPU auszunutzen?

Vielen Dank im Voraus

Antwort1

(Ich arbeite für Dell) – insbesondere mache ich viel Optimierung.

Ich glaube, Sie sind etwas vom Thema abgekommen. „Above 4G decoding“ ist ein Überbleibsel aus der Zeit, als die BIOS-PCIe-Speicheraufzählung auf 32 Bit beschränkt war, was nicht mehr der Fall ist und schon seit einiger Zeit nicht mehr der Fall war. Die Adressierung erfolgt jetzt nativ auf 64 Bit.

Allerdings ist unsere GPU-Leistung um etwa 50 % geringer als bei anderen Servern.

Ich bin mir nicht sicher, was Sie damit meinen. Vielleicht interpretiere ich da zu viel hinein, aber diese Aussage lässt mich glauben, dass dies Ihr erster Ausflug in die Optimierung sein könnte. In diesem Fall: großartig! Es ist eine komplizierte, aber faszinierende Welt. Die GPU-Leistung kann auf unzählige verschiedene Arten gemessen werden, sodass diese Aussage allein das Problem nicht eingrenzt.

Was die Gründe für die schlechte Leistung betrifft, so ist dies eine enorm komplexe Frage, über die Leute ganze Bücher schreiben. Einige häufige Fehler, die ich besonders auf AMD-basierten Servern beobachte:

  • Die Ausrichtung von PCIe-Lane und Prozessor wird nicht berücksichtigt. Stellen Sie sicher, dass alle Prozesse, die Sie mit der GPU ausführen, dem Prozessor zugewiesen werden, der die PCIe-Lanes der GPU hat, und nicht dem entfernten Prozessor.
  • Fehler beim Festlegen der NUMAs pro Kern entsprechend der Arbeitslast (dies gilt nur für AMD-Systeme wie den R7525)
  • Engpässe an anderer Stelle werden nicht berücksichtigt. Beispiel: Ich habe Leute erlebt, die eine schlechte GPU-Leistung feststellten, aber in Wirklichkeit war ein Teil ihrer Software an die Speicher-E/A gebunden.
  • Vielleicht ist das offensichtlich, aber versuchen Sie, das BIOS-Profil auf Leistung einzustellen. Wenn Sie es auf Energiesparen einstellen, kann dies möglicherweise zu Downclocks führen, wenn Sie dies nicht möchten.
  • Schlecht ausgerichtete Speicherübertragungen

Die Optimierung ist extrem arbeitslastspezifisch. Wenn Sie das zum ersten Mal machen, würde ich mich darauf konzentrieren, wirklich genau zu verstehen, wie die Daten fließen und wo es Engpässe geben könnte. Versuchen Sie, Dinge zu identifizieren, die nicht richtig zu passen scheinen. Beispiel: Wenn Sie denken, dass die GPU-Leistung niedrig ist, wie hoch ist die GPU-Auslastung? Liegt sie bei 100 %? Wenn sie nahe bei 100 % liegt, neige ich zu Softwareproblemen. Wenn sie nicht bei 100 % liegt, warum ist sie es nicht? Versorgen Sie sie nicht schnell genug mit Daten? Ist die Karte zu schwach? Ist der Server überhitzt? Usw.

verwandte Informationen