Ao monitorar os valores de temperatura da minha máquina, vejo que um deles está aumentando lentamente sob carga pesada, desencadeando um desligamento de emergência do thermald
.
Eu li os tipos de sensores térmicos /sys/class/thermal/thermal_zone*/type
e suas temperaturas correspondentes em/sys/class/thermal/thermal_zone*/temp
Porém, não encontrei em lugar nenhum as definições dos valores retornados por /sys/class/thermal/thermal_zone*/type
. Alguns parecem bastante autoexplicativos, como TCPU
por exemplo. Mas o ofensor para mim é AMBF
e não tenho ideia do que se refere.
Alguém sabe o que AMBF
significa e/ou onde encontrar alguma documentação sobre os vários tipos de zonas térmicas?
EDITAR:
Fiz muitas pesquisas desde que o problema ocorreu pela primeira vez e aqui estão minhas descobertas:
Monitorei os sensores térmicos e fiz o seguinte gráfico Pode-se ver que as temperaturas da CPU e da memória são bem controladas (o TCase da CPU está em 100°C, portanto nunca ultrapassado). No entanto,
AMBF
este continua crescendo até atingir o valor crítico de 80°C e acionar o desligamento de emergênciaNavegando na tabela ACPI, finalmente consegui descobrir que
AMBF
significaAMB and Near Fan Temperature (QE3)
Instalei um sistema operacional Windows 10 com o propósito exclusivo de testar lá. E:
- A
AMBF
entrada não está aparecendo na tabela ACPI (até onde posso ver) - O problema não se materializa no Windows. Executar exatamente o mesmo teste não aciona nenhum desligamento de emergência
- A
A Dell publicou recentemente um comunicado crítico ao cliente
(ID de referência interna da Dell Technologies – Dell Technologies ET004676)
Este comunicado ao cliente tem como objetivo informá-lo sobre uma descoberta recente envolvendo sistemas Optiplex e Precision específicos que podem encontrar um desligamento térmico no modo de espera moderno. A Dell Technologies recomenda a atualização imediata para o BIOS mais recente para manter o desempenho ideal do sistema e evitar qualquer problema.
Escusado será dizer que já estava na versão mais recente do BIOS. Mas suspeito que este Aviso ao Cliente possa explicar por que o problema não se materializa no Windows... Então tentei inicializar meu sistema Linux fingindo ser uma máquina Windows do ponto de vista ACPI usando acpi_osi=! acpi_osi='Windows 2019'
a linha de comando de inicialização. Infelizmente não fez nenhuma diferença.
De qualquer forma, continuo na mesma situação, incapaz de utilizar a máquina para a finalidade que comprei. Qualquer ideia adicional é muito bem-vinda.
Responder1
Pelo que entendi, os nomes das zonas térmicas são definidos pelo seu hardware.
Por exemplo, a zona padrão em uma placa-mãe Intel PC é chamada:x86_pkg_temp
E a zona padrão em um Raspberry Pi é chamada:cpu-thermal
Então você provavelmente terá que consultar o código-fonte do Kernel para os drivers/módulos necessários para o seu hardware específico para ver coisas como esta.
Você pode ter sorte ao instalar o lm-sensors
pacote e depois executar o sudo sensors-detect
.
Quando terminar, listará os módulos do kernel necessários para os sensores detectados.
Na verdade, acabei de fazer o acima e veja o que encontrei:
Intel digital thermal sensor... Success!
(driver `coretemp')
Intel AMB FB-DIMM thermal sensor... No
Tenho quase certeza de que a AMBF
zona se refere a Intel AMB FB-DIMM thermal sensor
- então provavelmente é a memória que está fritando neste caso.
Responder2
Finalmente recebi uma resposta do suporte da Dell informando que o AMBF
sensor poderia ser ignorado com segurança e o desligamento crítico a 80°C desativado.
Então criei um /etc/thermald/thermal-conf.xml
arquivo como este:
<?xml version="1.0"?>
<ThermalConfiguration>
<Platform>
<Name>Override AMBF critical trip point</Name>
<ProductName>*</ProductName>
<Preference>QUIET</Preference>
<ThermalZones>
<ThermalZone>
<Type>AMBF</Type>
<TripPoints>
<TripPoint>
<Temperature>95050</Temperature>
<type>critical</type>
</TripPoint>
<TripPoint>
<Temperature>80050</Temperature>
<type>hot</type>
</TripPoint>
</TripPoints>
</ThermalZone>
</ThermalZones>
</Platform>
</ThermalConfiguration>
Aqui, decidi definir um hot
nível de 80°C onde estava inicialmente critical
e manter uma rede de segurança com um critical
nível de 95°C.
Eu também instalei o mais recente thermald
doRepositório github da Intel
A partir daí, executei novamente meu teste e aqui está o gráfico da execução:
Como você pode ver, todas as temperaturas ainda são bem controladas e AMBF
agora podem ultrapassar livremente os 80°C. Ele se estabiliza em cerca de 92°C em plena carga e retorna lentamente ao seu nível normal quando o funcionamento termina.
O problema foi corrigido e minha máquina está totalmente operacional.