Dell Precision 3660 se apaga por sobrecalentamiento

Dell Precision 3660 se apaga por sobrecalentamiento

Al monitorear los valores de temperatura de mi máquina, veo que uno de ellos aumenta lentamente bajo una carga pesada, lo que finalmente desencadena un apagado de emergencia thermald.

Leo los tipos de sensores térmicos /sys/class/thermal/thermal_zone*/typey sus temperaturas correspondientes desde/sys/class/thermal/thermal_zone*/temp

Sin embargo, no encontré en ninguna parte las definiciones de los valores devueltos por /sys/class/thermal/thermal_zone*/type. Algunos parecen bastante autoexplicativos, como TCPUpor ejemplo. Pero el que me ofende es AMBFy no tengo idea a qué se refiere.

¿Alguien sabe qué AMBFsignifica esto y/o dónde encontrar documentación sobre los distintos tipos de zonas térmicas?

EDITAR:

Hice muchas búsquedas desde que ocurrió el problema por primera vez y estos son mis hallazgos:

  • Supervisé los sensores térmicos e hice el siguiente cuadro. Temperaturas en °C durante el esfuerzo de la máquina hasta la parada de emergencia Se puede ver que las temperaturas de la CPU y la memoria están bien manejadas (la CPU TCase está a 100°C, por lo que nunca se supera). Sin embargo, AMBFsigue creciendo hasta alcanzar su valor crítico de 80°C y provoca la parada de emergencia.

  • Navegando por la tabla ACPI, finalmente logré encontrar lo que AMBFsignificaAMB and Near Fan Temperature (QE3)

  • Instalé un sistema operativo Windows 10 con el único propósito de realizar pruebas allí. Y:

    1. La AMBFentrada no aparece en la tabla ACPI allí (hasta donde puedo ver)
    2. El problema no se materializa en Windows. Ejecutar exactamente la misma prueba no desencadena ningún apagado de emergencia
  • Dell publicó recientemente un aviso crítico para el cliente

(ID de referencia interna de Dell Technologies: Dell Technologies ET004676)

Este aviso al cliente es para informarle sobre un descubrimiento reciente que involucra sistemas Optiplex y Precision específicos que pueden experimentar un apagado térmico desde Modern Standby. Dell Technologies recomienda una actualización inmediata al BIOS más reciente para mantener un rendimiento óptimo del sistema y evitar experimentar cualquier problema.

No hace falta decir que ya tenía la última versión del BIOS. Pero sospecho que este aviso al cliente podría explicar por qué el problema no se materializa en Windows... Así que intenté iniciar mi sistema Linux mientras pretendía ser una máquina con Windows desde el punto de vista ACPI usando acpi_osi=! acpi_osi='Windows 2019'la línea de comando de inicio. Lamentablemente no hizo ninguna diferencia.

De todos modos, sigo en la misma situación, incapaz de utilizar la máquina para el fin para el que la compré. Cualquier idea adicional es muy bienvenida.

Respuesta1

Según tengo entendido, el nombre de las zonas térmicas está definido por su hardware.

Por ejemplo, la zona estándar en una placa base de PC Intel se llama:x86_pkg_temp

Y la zona estándar en una Raspberry Pi se llama:cpu-thermal

Por lo tanto, probablemente tenga que consultar el código fuente del Kernel para conocer los controladores/módulos necesarios para su hardware en particular para ver cosas como esta.

Es posible que tenga suerte instalando el lm-sensorspaquete y luego ejecutando sudo sensors-detect.

Cuando termine, enumerará los módulos del kernel necesarios para los sensores detectados.

De hecho, acabo de hacer lo anterior y mira lo que encontré:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

Estoy bastante seguro de que la AMBFzona se refiere a Intel AMB FB-DIMM thermal sensor... por lo que probablemente sea la memoria la que se está quemando en este caso.

Respuesta2

Finalmente recibí una respuesta del soporte de Dell diciéndome que el AMBFsensor se podía ignorar de manera segura y se podía desactivar el apagado crítico a 80°C.

Entonces he creado un /etc/thermald/thermal-conf.xmlarchivo como este:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

En este caso, he decidido establecer un hotnivel en 80 °C donde estaba inicialmente criticaly mantener una red de seguridad con un criticalnivel en 95 °C.

También instalé la última versión thermalddeRepositorio github de Intel

A partir de ahí, volví a ejecutar mi prueba y aquí está el gráfico de la ejecución:

Temperaturas en °C durante el esfuerzo de la máquina

Como puede ver, todas las temperaturas todavía están bien controladas y AMBFahora pueden superar libremente los 80°C. Se estabiliza a unos 92°C a plena carga y vuelve lentamente a su nivel normal cuando finaliza el funcionamiento.

El problema ya está solucionado y mi máquina está en pleno funcionamiento.

información relacionada