Dell Precision 3660 wird wegen Überhitzung heruntergefahren

Dell Precision 3660 wird wegen Überhitzung heruntergefahren

Bei der Überwachung der Temperaturwerte meiner Maschine stelle ich fest, dass einer dieser Werte bei hoher Belastung langsam ansteigt und schließlich eine Notabschaltung auslöst thermald.

Ich habe die Arten von Wärmesensoren /sys/class/thermal/thermal_zone*/typeund die entsprechenden Temperaturen ausgelesen./sys/class/thermal/thermal_zone*/temp

Ich habe jedoch nirgends die Definitionen der von zurückgegebenen Werte gefunden /sys/class/thermal/thermal_zone*/type. Einige scheinen ziemlich selbsterklärend zu sein, wie TCPUzum Beispiel. Aber der für mich anstößige ist AMBFund ich habe keine Ahnung, worauf er sich bezieht.

Weiß jemand, wofür das AMBFsteht und/oder wo man Dokumentationen zu den verschiedenen Arten von Wärmezonen finden kann?

BEARBEITEN:

Ich habe seit dem ersten Auftreten des Problems viele Suchvorgänge durchgeführt und hier sind meine Ergebnisse:

  • Ich habe die Wärmesensoren überwacht und das folgende Diagramm erstellt Temperaturen in °C während der Belastung der Maschine bis zur Notabschaltung Man kann sehen, dass die CPU- und Speichertemperaturen gut im Griff sind (die CPU-TCase liegt bei 100°C, wird also nie übertroffen). Die AMBFCPU steigt jedoch weiter an, bis sie ihren kritischen Wert von 80°C erreicht und die Notabschaltung auslöst.

  • Beim Durchsuchen der ACPI-Tabelle habe ich schließlich herausgefunden, dass dies AMBFfürAMB and Near Fan Temperature (QE3)

  • Ich habe dort ausschließlich zu Testzwecken ein Windows 10-Betriebssystem installiert. Und:

    1. Der AMBFEintrag erscheint dort nicht in der ACPI-Tabelle (soweit ich sehen kann)
    2. Das Problem tritt unter Windows nicht auf. Wenn Sie den gleichen Test ausführen, wird kein Notfall-Shutdown ausgelöst.
  • Dell veröffentlichte kürzlich eine kritische Kundenberatung

(Interne Referenz-ID von Dell Technologies – Dell Technologies ET004676)

Mit diesem Kundenhinweis möchten wir Sie über eine kürzliche Entdeckung bei bestimmten Optiplex- und Precision-Systemen informieren, bei denen es zu einer thermischen Abschaltung aus dem Modern Standby-Modus kommen kann. Dell Technologies empfiehlt ein sofortiges Upgrade auf das neueste BIOS, um eine optimale Systemleistung aufrechtzuerhalten und Probleme zu vermeiden.

Natürlich hatte ich bereits die neueste BIOS-Version. Aber ich vermute, dieser Kundenhinweis könnte erklären, warum das Problem unter Windows nicht auftritt ... Also habe ich versucht, mein Linux-System zu booten, während ich aus ACPI-Sicht vorgab, ein Windows-Rechner zu sein, indem ich acpi_osi=! acpi_osi='Windows 2019'in der Boot-Befehlszeile Folgendes verwendete. Leider hat es keinen Unterschied gemacht.

Wie dem auch sei, ich bin immer noch in der gleichen Situation und kann die Maschine nicht für den Zweck verwenden, für den ich sie gekauft habe. Jede weitere Idee ist herzlich willkommen.

Antwort1

So wie ich es verstehe, werden die Namen der Wärmezonen durch Ihre Hardware definiert.

Beispielsweise lautet die Standardzone auf einem Intel-PC-Motherboard:x86_pkg_temp

Und die Standardzone auf einem Raspberry Pi heißt:cpu-thermal

Um derartige Dinge zu erkennen, müssen Sie wahrscheinlich den Kernel-Quellcode auf die für Ihre spezielle Hardware erforderlichen Treiber/Module prüfen.

Möglicherweise haben Sie Erfolg bei der Installation des lm-sensorsPakets und können es anschließend ausführen sudo sensors-detect.

Wenn dies abgeschlossen ist, werden die für die erkannten Sensoren benötigten Kernelmodule aufgelistet.

Tatsächlich habe ich gerade das oben Genannte getan, und sehen Sie, was ich gefunden habe:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

Ich bin ziemlich sicher, dass sich die AMBFZone auf das bezieht Intel AMB FB-DIMM thermal sensor– also ist es in diesem Fall wahrscheinlich der Speicher, der kaputt geht.

Antwort2

Endlich bekam ich eine Antwort vom Dell-Support, in der es hieß, dass der AMBFSensor getrost ignoriert und die kritische Abschaltung bei 80 °C deaktiviert werden könne.

Also habe ich eine /etc/thermald/thermal-conf.xmlDatei wie diese erstellt:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

hotHier habe ich beschlossen, einen Wert bei 80 °C festzulegen, wo er ursprünglich war critical, und ein Sicherheitsnetz mit einem criticalWert bei 95 °C beizubehalten.

Ich habe auch die neueste Version thermaldvonIntels GitHub-Repository

Von dort aus habe ich meinen Test erneut ausgeführt und hier ist die Grafik der Ausführung:

Temperaturen in °C bei Belastung der Maschine

Wie Sie sehen, werden alle Temperaturen noch gut kontrolliert und AMBFkönnen nun problemlos über 80 °C steigen. Bei Volllast stabilisiert es sich bei etwa 92 °C und kehrt nach Abschluss des Laufs langsam auf sein normales Niveau zurück.

Das Problem ist nun behoben und meine Maschine voll funktionsfähig.

verwandte Informationen