Untersuchung der Grundursache des Computer-Shutdowns unter GPU-Last

Untersuchung der Grundursache des Computer-Shutdowns unter GPU-Last

Ich versuche, meine Nvidia-GPU für wissenschaftliche Zwecke zu verwenden. Nach einer Weile habe ich jedoch einen Prozess für diese GPU gestartet, mein Computer fährt herunter. Er kann nicht über den Gehäuseknopf geöffnet werden, es sei denn, der Netzteil-Einschaltknopf wird ausgeschaltet und bleibt mindestens 30 Sekunden in diesem Zustand, bevor er eingeschaltet wird. Ich versuche, den Grund für diese Situation herauszufinden.

Meine Systemübersicht ist:

  • Linux (Fedora)
  • Hauptplatine: Gigabyte GA-970A-UD3
  • Nvidia Gtx 1070 (für GPU-Aufgaben)
  • Radeon HD 7850 (für Standardzwecke)
  • 700-W-Netzteil

Hier ist eine Liste der Dinge, die ich bisher versucht habe:

  • Ich habe einen CPU-Belastungstest durchgeführt und es wird nicht heruntergefahren
  • Ich habe die AMD-GPU entfernt, sie stürzt immer noch ab
  • Es wird nicht heruntergefahren, wenn ich für kurze Zeit eine leichte Berechnung an die Nvidia GPU weitergebe
  • Wenn ich eine hohe Berechnung durchführe, wird es sehr kurz nach dem Start heruntergefahren
  • Ich habe die Temperatur der Nvidia-GPU überprüft und selbst wenn sie bei maximal 55 °C schwankt, schaltet sie sich ab
  • Ich habe die Lüftergeschwindigkeit der Nvidia-GPU manuell auf 80 % eingestellt. Das schien zu helfen, da die jeweilige Aufgabe etwas länger als gewöhnlich lief, aber es verhinderte nicht das Herunterfahren.
  • Ich habe zusätzliche Festplatten oder Lüfter entfernt, um das Netzteil weniger zu belasten, es hat überhaupt nicht geholfen
  • Ich habe ein zusätzliches Netzteil hinzugefügt mitadd2psujedoch immer noch Abschaltungen
  • Selbst wenn die CPU-Temperatur bei etwa 45 liegt, wird sie abgeschaltet, wenn die Nvidia-GPU mit Berechnungen beginnt.
  • Ich habe meine Berechnungssoftware komplett geändert, aber sie stürzt ab
  • Ich habe den Nvidia-Treiber aktualisiert und das hat nicht geholfen
  • Ich habe zufällige Berechnungen versucht, um den Lesevorgang der Festplatte zu isolieren, aber er wird immer noch heruntergefahren
  • Ich habe das Betriebssystem neu installiert, aber das Problem besteht weiterhin
  • Ich habe das Motherboard überprüft, aber keine Brandspuren

Was schlagen Sie vor? Was könnte die Grundursache dafür sein?

Danke schön.

Antwort1

Wie hoch sind Ihre CPU-Temperaturen? Unsachgemäße Verwendung von Wärmeleitpaste, z. B. zu wenig oder falsch ausgerichteter CPU-Kühler, kann dasselbe Problem durch Überhitzung verursachen. Als letztes sollten Sie Ihr Netzteil überprüfen. Ich hatte kürzlich eines, das unter Belastung (beim Spielen) ausfiel und mein System neu startete, aber wenn ich nicht spielte, lief es stundenlang. Am billigsten und einfachsten wäre es, zuerst das Netzteil zu überprüfen. Wenn das immer noch keine Besserung bringt, sollten Sie die Wärmeleitpaste auf der CPU erneuern und sicherstellen, dass Ihr CPU-Kühler richtig sitzt.

Antwort2

Ich habe die Taktfrequenzen während der Task-Ausführung in der Nvidia GPU überprüft und festgestellt, dass eswirklich übertrifft Spezifikation Maximum. In einigen niedrigeren Zuständen wie P8 erfolgt also keine Abschaltung, aber diese übertaktete Frequenz verhindert, dass es in höheren Zuständen funktioniert.

Ich kann die Taktfrequenz der Nvidia-GPU nicht begrenzen. Ich habe es jedoch geschafft, indem ich den Stromverbrauch begrenzt habe, allerdings auf Kosten einer relativ um 20 % langsameren Ausführungsgeschwindigkeit.

Befehl:

nvidia-smi --persistence-mode=1
nvidia-smi --power-limit=$POWER_LIMIT

verwandte Informationen