當監控我的機器的溫度值時,我發現其中一個溫度值在重負載下緩慢增加,最終觸發緊急關閉thermald
。
我從中讀取了熱感測器的類型/sys/class/thermal/thermal_zone*/type
及其相應的溫度/sys/class/thermal/thermal_zone*/temp
但是,我沒有在任何地方找到返回值的定義/sys/class/thermal/thermal_zone*/type
。有些看起來很不言自明,例如TCPU
。但對我來說,令人反感的是AMBF
,我不知道它指的是什麼。
有誰知道這AMBF
代表什麼和/或在哪裡可以找到有關各種類型熱區的一些文件?
編輯:
自從問題第一次出現以來,我做了很多搜索,以下是我的發現:
我監控了熱感應器並製作了下圖 可以看到CPU和記憶體溫度處理得很好(CPU TCase是100°C,所以從未被超越)。然而,溫度
AMBF
會持續增長,直到達到 80°C 的臨界值並觸發緊急關閉瀏覽ACPI表,我終於找到
AMBF
代表AMB and Near Fan Temperature (QE3)
我安裝了 Windows 10 作業系統,用於進行測試的獨特目的。和:
- 該
AMBF
條目沒有顯示在 ACPI 表中(據我所知) - 該問題在 Windows 上不會出現。執行完全相同的測試不會觸發任何緊急關閉
- 該
戴爾最近發布了重要客戶諮詢
(Dell Technologies 內部參考 ID – Dell Technologies ET004676)
本客戶通報旨在通知您最近發現的一項涉及特定 Optiplex 和 Precision 系統的發現,這些系統可能會遇到現代待機熱關機的情況。 Dell Technologies 建議立即升級至最新的 BIOS,以保持最佳系統效能並避免遇到任何問題。
不用說,我已經使用了最新的 BIOS 版本。但我懷疑此客戶諮詢可能會解釋為什麼該問題在 Windows 上不會出現...因此,我嘗試啟動我的 Linux 系統,同時從 ACPI 的角度來看,透過acpi_osi=! acpi_osi='Windows 2019'
在啟動命令列上使用來假裝是Windows電腦.不幸的是,這沒有任何區別。
無論如何,我仍然處於同樣的情況,無法按照購買時的目的使用這台機器。非常歡迎任何進一步的想法。
答案1
據我了解,熱區域的名稱是由您的硬體定義的。
例如,Intel PC 主機板上的標準區域命名為:x86_pkg_temp
Raspberry Pi 上的標準區域命名為:cpu-thermal
因此,您可能必須查閱特定硬體所需的驅動程式/模組的核心原始碼才能看到類似的內容。
您可能會幸運地安裝該lm-sensors
軟體包,然後運行sudo sensors-detect
.
完成後,它將列出檢測到的感測器所需的核心模組。
事實上,我只是做了上面的事情,看看我發現了什麼:
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
我非常確定該AMBF
區域指的是Intel AMB FB-DIMM thermal sensor
- 所以在這種情況下可能是內存被燒壞了。
答案2
我終於得到了戴爾支援人員的答复,告訴我AMBF
可以安全地忽略感測器並禁用 80°C 時的關鍵關閉。
所以我創建了一個/etc/thermald/thermal-conf.xml
這樣的文件:
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
在這裡,我決定將hot
溫度設定為最初的 80°C critical
,並將安全網的critical
溫度保持為 95°C。
我還安裝了最新thermald
的英特爾的 github 儲存庫
從那裡,我重新運行我的測試,這是執行圖:
正如您所看到的,所有溫度仍然控制得很好,AMBF
現在可以自由地超過 80°C。滿載時溫度穩定在 92°C 左右,運轉結束後緩慢恢復正常。
問題現已解決,我的機器可以正常運作。