Bei der Überwachung der Temperaturwerte meiner Maschine stelle ich fest, dass einer dieser Werte bei hoher Belastung langsam ansteigt und schließlich eine Notabschaltung auslöst thermald
.
Ich habe die Arten von Wärmesensoren /sys/class/thermal/thermal_zone*/type
und die entsprechenden Temperaturen ausgelesen./sys/class/thermal/thermal_zone*/temp
Ich habe jedoch nirgends die Definitionen der von zurückgegebenen Werte gefunden /sys/class/thermal/thermal_zone*/type
. Einige scheinen ziemlich selbsterklärend zu sein, wie TCPU
zum Beispiel. Aber der für mich anstößige ist AMBF
und ich habe keine Ahnung, worauf er sich bezieht.
Weiß jemand, wofür das AMBF
steht und/oder wo man Dokumentationen zu den verschiedenen Arten von Wärmezonen finden kann?
BEARBEITEN:
Ich habe seit dem ersten Auftreten des Problems viele Suchvorgänge durchgeführt und hier sind meine Ergebnisse:
Ich habe die Wärmesensoren überwacht und das folgende Diagramm erstellt Man kann sehen, dass die CPU- und Speichertemperaturen gut im Griff sind (die CPU-TCase liegt bei 100°C, wird also nie übertroffen). Die
AMBF
CPU steigt jedoch weiter an, bis sie ihren kritischen Wert von 80°C erreicht und die Notabschaltung auslöst.Beim Durchsuchen der ACPI-Tabelle habe ich schließlich herausgefunden, dass dies
AMBF
fürAMB and Near Fan Temperature (QE3)
Ich habe dort ausschließlich zu Testzwecken ein Windows 10-Betriebssystem installiert. Und:
- Der
AMBF
Eintrag erscheint dort nicht in der ACPI-Tabelle (soweit ich sehen kann) - Das Problem tritt unter Windows nicht auf. Wenn Sie den gleichen Test ausführen, wird kein Notfall-Shutdown ausgelöst.
- Der
Dell veröffentlichte kürzlich eine kritische Kundenberatung
(Interne Referenz-ID von Dell Technologies – Dell Technologies ET004676)
Mit diesem Kundenhinweis möchten wir Sie über eine kürzliche Entdeckung bei bestimmten Optiplex- und Precision-Systemen informieren, bei denen es zu einer thermischen Abschaltung aus dem Modern Standby-Modus kommen kann. Dell Technologies empfiehlt ein sofortiges Upgrade auf das neueste BIOS, um eine optimale Systemleistung aufrechtzuerhalten und Probleme zu vermeiden.
Natürlich hatte ich bereits die neueste BIOS-Version. Aber ich vermute, dieser Kundenhinweis könnte erklären, warum das Problem unter Windows nicht auftritt ... Also habe ich versucht, mein Linux-System zu booten, während ich aus ACPI-Sicht vorgab, ein Windows-Rechner zu sein, indem ich acpi_osi=! acpi_osi='Windows 2019'
in der Boot-Befehlszeile Folgendes verwendete. Leider hat es keinen Unterschied gemacht.
Wie dem auch sei, ich bin immer noch in der gleichen Situation und kann die Maschine nicht für den Zweck verwenden, für den ich sie gekauft habe. Jede weitere Idee ist herzlich willkommen.
Antwort1
So wie ich es verstehe, werden die Namen der Wärmezonen durch Ihre Hardware definiert.
Beispielsweise lautet die Standardzone auf einem Intel-PC-Motherboard:x86_pkg_temp
Und die Standardzone auf einem Raspberry Pi heißt:cpu-thermal
Um derartige Dinge zu erkennen, müssen Sie wahrscheinlich den Kernel-Quellcode auf die für Ihre spezielle Hardware erforderlichen Treiber/Module prüfen.
Möglicherweise haben Sie Erfolg bei der Installation des lm-sensors
Pakets und können es anschließend ausführen sudo sensors-detect
.
Wenn dies abgeschlossen ist, werden die für die erkannten Sensoren benötigten Kernelmodule aufgelistet.
Tatsächlich habe ich gerade das oben Genannte getan, und sehen Sie, was ich gefunden habe:
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
Ich bin ziemlich sicher, dass sich die AMBF
Zone auf das bezieht Intel AMB FB-DIMM thermal sensor
– also ist es in diesem Fall wahrscheinlich der Speicher, der kaputt geht.
Antwort2
Endlich bekam ich eine Antwort vom Dell-Support, in der es hieß, dass der AMBF
Sensor getrost ignoriert und die kritische Abschaltung bei 80 °C deaktiviert werden könne.
Also habe ich eine /etc/thermald/thermal-conf.xml
Datei wie diese erstellt:
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
hot
Hier habe ich beschlossen, einen Wert bei 80 °C festzulegen, wo er ursprünglich war critical
, und ein Sicherheitsnetz mit einem critical
Wert bei 95 °C beizubehalten.
Ich habe auch die neueste Version thermald
vonIntels GitHub-Repository
Von dort aus habe ich meinen Test erneut ausgeführt und hier ist die Grafik der Ausführung:
Wie Sie sehen, werden alle Temperaturen noch gut kontrolliert und AMBF
können nun problemlos über 80 °C steigen. Bei Volllast stabilisiert es sich bei etwa 92 °C und kehrt nach Abschluss des Laufs langsam auf sein normales Niveau zurück.
Das Problem ist nun behoben und meine Maschine voll funktionsfähig.