Dell Precision 3660 выключается из-за перегрева

Dell Precision 3660 выключается из-за перегрева

При мониторинге значений температуры моего компьютера я вижу, что одно из них медленно увеличивается под большой нагрузкой, что в конечном итоге приводит к аварийному отключению thermald.

Я прочитал типы термодатчиков /sys/class/thermal/thermal_zone*/typeи соответствующие им температуры из/sys/class/thermal/thermal_zone*/temp

Однако я нигде не нашел определений значений, возвращаемых /sys/class/thermal/thermal_zone*/type. Некоторые выглядят довольно очевидными, как, TCPUнапример. Но для меня оскорбительным является AMBFи я понятия не имею, к чему это относится.

Кто-нибудь знает, что это AMBFозначает и/или где можно найти документацию о различных типах тепловых зон?

РЕДАКТИРОВАТЬ:

Я провел много поисков с тех пор, как впервые возникла эта проблема, и вот мои выводы:

  • Я отслеживал показания термодатчиков и составил следующую диаграмму Температура в °C при нагрузке машины до аварийного отключения Видно, что температуры ЦП и памяти хорошо контролируются (TCase ЦП составляет 100°C, поэтому никогда не превышается). Однако она AMBFпродолжает расти, пока не достигнет критического значения 80°C и не вызовет аварийное отключение

  • Просматривая таблицу ACPI, мне наконец удалось найти, что AMBFозначаетAMB and Near Fan Temperature (QE3)

  • Я установил там ОС Windows 10 исключительно для целей тестирования. И:

    1. Запись AMBFне отображается в таблице ACPI (насколько я могу судить)
    2. Проблема не проявляется в Windows. Запуск того же теста не приводит к аварийному завершению работы
  • Недавно компания Dell опубликовала критически важный информационный бюллетень для клиентов.

(Внутренний справочный идентификатор Dell Technologies – Dell Technologies ET004676)

Этот информационный бюллетень для клиентов информирует вас о недавнем открытии, касающемся определенных систем Optiplex и Precision, которые могут столкнуться с тепловым отключением из Modern Standby. Dell Technologies рекомендует немедленно обновить BIOS до последней версии, чтобы поддерживать оптимальную производительность системы и избежать возникновения каких-либо проблем.

Излишне говорить, что у меня уже была последняя версия BIOS. Но я подозреваю, что этот информационный бюллетень для клиентов может объяснить, почему проблема не возникает в Windows... Поэтому я попытался загрузить свою систему Linux, притворяясь машиной Windows с точки зрения ACPI, используя в acpi_osi=! acpi_osi='Windows 2019'командной строке загрузки. К сожалению, это не дало никаких результатов.

В любом случае, я все еще в той же ситуации, не могу использовать машину для той цели, для которой я ее купил. Любые дальнейшие идеи очень приветствуются.

решение1

Насколько я понимаю, название тепловых зон определяется вашим оборудованием.

Например, стандартная зона на материнской плате ПК Intel имеет название:x86_pkg_temp

А стандартная зона на Raspberry Pi называется:cpu-thermal

Поэтому вам, вероятно, придется обратиться к исходному коду ядра для поиска драйверов/модулей, необходимых для вашего конкретного оборудования, чтобы увидеть такие вещи.

Возможно, вам повезет, если вы установите lm-sensorsпакет, а затем запустите sudo sensors-detect.

После завершения будет выведен список модулей ядра, необходимых для обнаруженных датчиков.

На самом деле я только что проделал все вышеперечисленное и вот что я обнаружил:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

Я почти уверен, что под AMBFзоной подразумевается Intel AMB FB-DIMM thermal sensor... так что, вероятно, в данном случае речь идет о памяти, которая поджаривается.

решение2

Наконец-то я получил ответ от службы поддержки Dell, в котором говорилось, что AMBFдатчик можно смело игнорировать, а критическое отключение при температуре 80°C отключить.

Поэтому я создал /etc/thermald/thermal-conf.xmlтакой файл:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

Здесь я решил установить hotуровень 80°C там, где он был изначально critical, и сохранить уровень безопасности на criticalуровне 95°C.

Я также установил последнюю версию thermaldотРепозиторий Intel на GitHub

После этого я снова запустил тест, и вот график его выполнения:

Температура в °C при нагрузке на машину

Как вы видите, все температуры по-прежнему хорошо контролируются и AMBFтеперь могут свободно превышать 80°C. Она стабилизируется на уровне около 92°C при полной нагрузке и медленно возвращается к нормальному уровню по окончании работы.

Проблема устранена, и мое устройство полностью работоспособно.

Связанный контент