Dell Precision 3660 se apaga por sobrecalentamiento

Question 1

Según tengo entendido, el nombre de las zonas térmicas está definido por su hardware.

Por ejemplo, la zona estándar en una placa base de PC Intel se llama:x86_pkg_temp

Y la zona estándar en una Raspberry Pi se llama:cpu-thermal

Por lo tanto, probablemente tenga que consultar el código fuente del Kernel para conocer los controladores/módulos necesarios para su hardware en particular para ver cosas como esta.

Es posible que tenga suerte instalando el lm-sensorspaquete y luego ejecutando sudo sensors-detect.

Cuando termine, enumerará los módulos del kernel necesarios para los sensores detectados.

De hecho, acabo de hacer lo anterior y mira lo que encontré:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

Estoy bastante seguro de que la AMBFzona se refiere a Intel AMB FB-DIMM thermal sensor... por lo que probablemente sea la memoria la que se está quemando en este caso.

Answer

Según tengo entendido, el nombre de las zonas térmicas está definido por su hardware.

Por ejemplo, la zona estándar en una placa base de PC Intel se llama:x86_pkg_temp

Y la zona estándar en una Raspberry Pi se llama:cpu-thermal

Por lo tanto, probablemente tenga que consultar el código fuente del Kernel para conocer los controladores/módulos necesarios para su hardware en particular para ver cosas como esta.

Es posible que tenga suerte instalando el lm-sensorspaquete y luego ejecutando sudo sensors-detect.

Cuando termine, enumerará los módulos del kernel necesarios para los sensores detectados.

De hecho, acabo de hacer lo anterior y mira lo que encontré:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

Estoy bastante seguro de que la AMBFzona se refiere a Intel AMB FB-DIMM thermal sensor... por lo que probablemente sea la memoria la que se está quemando en este caso.

Question 2

Finalmente recibí una respuesta del soporte de Dell diciéndome que el AMBFsensor se podía ignorar de manera segura y se podía desactivar el apagado crítico a 80°C.

Entonces he creado un /etc/thermald/thermal-conf.xmlarchivo como este:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

En este caso, he decidido establecer un hotnivel en 80 °C donde estaba inicialmente criticaly mantener una red de seguridad con un criticalnivel en 95 °C.

También instalé la última versión thermalddeRepositorio github de Intel

A partir de ahí, volví a ejecutar mi prueba y aquí está el gráfico de la ejecución:

Como puede ver, todas las temperaturas todavía están bien controladas y AMBFahora pueden superar libremente los 80°C. Se estabiliza a unos 92°C a plena carga y vuelve lentamente a su nivel normal cuando finaliza el funcionamiento.

El problema ya está solucionado y mi máquina está en pleno funcionamiento.

Answer