Dell Precision 3660 因過熱而關閉

Dell Precision 3660 因過熱而關閉

當監控我的機器的溫度值時,我發現其中一個溫度值在重負載下緩慢增加,最終觸發緊急關閉thermald

我從中讀取了熱感測器的類型/sys/class/thermal/thermal_zone*/type及其相應的溫度/sys/class/thermal/thermal_zone*/temp

但是,我沒有在任何地方找到返回值的定義/sys/class/thermal/thermal_zone*/type。有些看起來很不言自明,例如TCPU。但對我來說,令人反感的是AMBF,我不知道它指的是什麼。

有誰知道這AMBF代表什麼和/或在哪裡可以找到有關各種類型熱區的一些文件?

編輯:

自從問題第一次出現以來,我做了很多搜索,以下是我的發現:

  • 我監控了熱感應器並製作了下圖 機器受壓至緊急停機時的溫度(°C) 可以看到CPU和記憶體溫度處理得很好(CPU TCase是100°C,所以從未被超越)。然而,溫度AMBF會持續增長,直到達到 80°C 的臨界值並觸發緊急關閉

  • 瀏覽ACPI表,我終於找到AMBF代表AMB and Near Fan Temperature (QE3)

  • 我安裝了 Windows 10 作業系統,用於進行測試的獨特目的。和:

    1. AMBF條目沒有顯示在 ACPI 表中(據我所知)
    2. 該問題在 Windows 上不會出現。執行完全相同的測試不會觸發任何緊急關閉
  • 戴爾最近發布了重要客戶諮詢

(Dell Technologies 內部參考 ID – Dell Technologies ET004676)

本客戶通報旨在通知您最近發現的一項涉及特定 Optiplex 和 Precision 系統的發現,這些系統可能會遇到現代待機熱關機的情況。 Dell Technologies 建議立即升級至最新的 BIOS,以保持最佳系統效能並避免遇到任何問題。

不用說,我已經使用了最新的 BIOS 版本。但我懷疑此客戶諮詢可能會解釋為什麼該問題在 Windows 上不會出現...因此,我嘗試啟動我的 Linux 系統,同時從 ACPI 的角度來看,透過acpi_osi=! acpi_osi='Windows 2019'在啟動命令列上使用來假裝是Windows電腦.不幸的是,這沒有任何區別。

無論如何,我仍然處於同樣的情況,無法按照購買時的目的使用這台機器。非常歡迎任何進一步的想法。

答案1

據我了解,熱區域的名稱是由您的硬體定義的。

例如,Intel PC 主機板上的標準區域命名為:x86_pkg_temp

Raspberry Pi 上的標準區域命名為:cpu-thermal

因此,您可能必須查閱特定硬體所需的驅動程式/模組的核心原始碼才能看到類似的內容。

您可能會幸運地安裝該lm-sensors軟體包,然後運行sudo sensors-detect.

完成後,它將列出檢測到的感測器所需的核心模組。

事實上,我只是做了上面的事情,看看我發現了什麼:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

我非常確定該AMBF區域指的是Intel AMB FB-DIMM thermal sensor- 所以在這種情況下可能是內存被燒壞了。

答案2

我終於得到了戴爾支援人員的答复,告訴我AMBF可以安全地忽略感測器並禁用 80°C 時的關鍵關閉。

所以我創建了一個/etc/thermald/thermal-conf.xml這樣的文件:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

在這裡,我決定將hot溫度設定為最初的 80°C critical,並將安全網的critical溫度保持為 95°C。

我還安裝了最新thermald英特爾的 github 儲存庫

從那裡,我重新運行我的測試,這是執行圖:

機器受力時的溫度(°C)

正如您所看到的,所有溫度仍然控制得很好,AMBF現在可以自由地超過 80°C。滿載時溫度穩定在 92°C 左右,運轉結束後緩慢恢復正常。

問題現已解決,我的機器可以正常運作。

相關內容