Al monitorear los valores de temperatura de mi máquina, veo que uno de ellos aumenta lentamente bajo una carga pesada, lo que finalmente desencadena un apagado de emergencia thermald
.
Leo los tipos de sensores térmicos /sys/class/thermal/thermal_zone*/type
y sus temperaturas correspondientes desde/sys/class/thermal/thermal_zone*/temp
Sin embargo, no encontré en ninguna parte las definiciones de los valores devueltos por /sys/class/thermal/thermal_zone*/type
. Algunos parecen bastante autoexplicativos, como TCPU
por ejemplo. Pero el que me ofende es AMBF
y no tengo idea a qué se refiere.
¿Alguien sabe qué AMBF
significa esto y/o dónde encontrar documentación sobre los distintos tipos de zonas térmicas?
EDITAR:
Hice muchas búsquedas desde que ocurrió el problema por primera vez y estos son mis hallazgos:
Supervisé los sensores térmicos e hice el siguiente cuadro. Se puede ver que las temperaturas de la CPU y la memoria están bien manejadas (la CPU TCase está a 100°C, por lo que nunca se supera). Sin embargo,
AMBF
sigue creciendo hasta alcanzar su valor crítico de 80°C y provoca la parada de emergencia.Navegando por la tabla ACPI, finalmente logré encontrar lo que
AMBF
significaAMB and Near Fan Temperature (QE3)
Instalé un sistema operativo Windows 10 con el único propósito de realizar pruebas allí. Y:
- La
AMBF
entrada no aparece en la tabla ACPI allí (hasta donde puedo ver) - El problema no se materializa en Windows. Ejecutar exactamente la misma prueba no desencadena ningún apagado de emergencia
- La
Dell publicó recientemente un aviso crítico para el cliente
(ID de referencia interna de Dell Technologies: Dell Technologies ET004676)
Este aviso al cliente es para informarle sobre un descubrimiento reciente que involucra sistemas Optiplex y Precision específicos que pueden experimentar un apagado térmico desde Modern Standby. Dell Technologies recomienda una actualización inmediata al BIOS más reciente para mantener un rendimiento óptimo del sistema y evitar experimentar cualquier problema.
No hace falta decir que ya tenía la última versión del BIOS. Pero sospecho que este aviso al cliente podría explicar por qué el problema no se materializa en Windows... Así que intenté iniciar mi sistema Linux mientras pretendía ser una máquina con Windows desde el punto de vista ACPI usando acpi_osi=! acpi_osi='Windows 2019'
la línea de comando de inicio. Lamentablemente no hizo ninguna diferencia.
De todos modos, sigo en la misma situación, incapaz de utilizar la máquina para el fin para el que la compré. Cualquier idea adicional es muy bienvenida.
Respuesta1
Según tengo entendido, el nombre de las zonas térmicas está definido por su hardware.
Por ejemplo, la zona estándar en una placa base de PC Intel se llama:x86_pkg_temp
Y la zona estándar en una Raspberry Pi se llama:cpu-thermal
Por lo tanto, probablemente tenga que consultar el código fuente del Kernel para conocer los controladores/módulos necesarios para su hardware en particular para ver cosas como esta.
Es posible que tenga suerte instalando el lm-sensors
paquete y luego ejecutando sudo sensors-detect
.
Cuando termine, enumerará los módulos del kernel necesarios para los sensores detectados.
De hecho, acabo de hacer lo anterior y mira lo que encontré:
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
Estoy bastante seguro de que la AMBF
zona se refiere a Intel AMB FB-DIMM thermal sensor
... por lo que probablemente sea la memoria la que se está quemando en este caso.
Respuesta2
Finalmente recibí una respuesta del soporte de Dell diciéndome que el AMBF
sensor se podía ignorar de manera segura y se podía desactivar el apagado crítico a 80°C.
Entonces he creado un /etc/thermald/thermal-conf.xml
archivo como este:
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
En este caso, he decidido establecer un hot
nivel en 80 °C donde estaba inicialmente critical
y mantener una red de seguridad con un critical
nivel en 95 °C.
También instalé la última versión thermald
deRepositorio github de Intel
A partir de ahí, volví a ejecutar mi prueba y aquí está el gráfico de la ejecución:
Como puede ver, todas las temperaturas todavía están bien controladas y AMBF
ahora pueden superar libremente los 80°C. Se estabiliza a unos 92°C a plena carga y vuelve lentamente a su nivel normal cuando finaliza el funcionamiento.
El problema ya está solucionado y mi máquina está en pleno funcionamiento.