Dell Precision 3660 desligando por superaquecimento

Dell Precision 3660 desligando por superaquecimento

Ao monitorar os valores de temperatura da minha máquina, vejo que um deles está aumentando lentamente sob carga pesada, desencadeando um desligamento de emergência do thermald.

Eu li os tipos de sensores térmicos /sys/class/thermal/thermal_zone*/typee suas temperaturas correspondentes em/sys/class/thermal/thermal_zone*/temp

Porém, não encontrei em lugar nenhum as definições dos valores retornados por /sys/class/thermal/thermal_zone*/type. Alguns parecem bastante autoexplicativos, como TCPUpor exemplo. Mas o ofensor para mim é AMBFe não tenho ideia do que se refere.

Alguém sabe o que AMBFsignifica e/ou onde encontrar alguma documentação sobre os vários tipos de zonas térmicas?

EDITAR:

Fiz muitas pesquisas desde que o problema ocorreu pela primeira vez e aqui estão minhas descobertas:

  • Monitorei os sensores térmicos e fiz o seguinte gráfico Temperaturas em °C durante o esforço da máquina até o desligamento de emergência Pode-se ver que as temperaturas da CPU e da memória são bem controladas (o TCase da CPU está em 100°C, portanto nunca ultrapassado). No entanto, AMBFeste continua crescendo até atingir o valor crítico de 80°C e acionar o desligamento de emergência

  • Navegando na tabela ACPI, finalmente consegui descobrir que AMBFsignificaAMB and Near Fan Temperature (QE3)

  • Instalei um sistema operacional Windows 10 com o propósito exclusivo de testar lá. E:

    1. A AMBFentrada não está aparecendo na tabela ACPI (até onde posso ver)
    2. O problema não se materializa no Windows. Executar exatamente o mesmo teste não aciona nenhum desligamento de emergência
  • A Dell publicou recentemente um comunicado crítico ao cliente

(ID de referência interna da Dell Technologies – Dell Technologies ET004676)

Este comunicado ao cliente tem como objetivo informá-lo sobre uma descoberta recente envolvendo sistemas Optiplex e Precision específicos que podem encontrar um desligamento térmico no modo de espera moderno. A Dell Technologies recomenda a atualização imediata para o BIOS mais recente para manter o desempenho ideal do sistema e evitar qualquer problema.

Escusado será dizer que já estava na versão mais recente do BIOS. Mas suspeito que este Aviso ao Cliente possa explicar por que o problema não se materializa no Windows... Então tentei inicializar meu sistema Linux fingindo ser uma máquina Windows do ponto de vista ACPI usando acpi_osi=! acpi_osi='Windows 2019'a linha de comando de inicialização. Infelizmente não fez nenhuma diferença.

De qualquer forma, continuo na mesma situação, incapaz de utilizar a máquina para a finalidade que comprei. Qualquer ideia adicional é muito bem-vinda.

Responder1

Pelo que entendi, os nomes das zonas térmicas são definidos pelo seu hardware.

Por exemplo, a zona padrão em uma placa-mãe Intel PC é chamada:x86_pkg_temp

E a zona padrão em um Raspberry Pi é chamada:cpu-thermal

Então você provavelmente terá que consultar o código-fonte do Kernel para os drivers/módulos necessários para o seu hardware específico para ver coisas como esta.

Você pode ter sorte ao instalar o lm-sensorspacote e depois executar o sudo sensors-detect.

Quando terminar, listará os módulos do kernel necessários para os sensores detectados.

Na verdade, acabei de fazer o acima e veja o que encontrei:

Intel digital thermal sensor...                             Success!
    (driver `coretemp')
Intel AMB FB-DIMM thermal sensor...                         No

Tenho quase certeza de que a AMBFzona se refere a Intel AMB FB-DIMM thermal sensor- então provavelmente é a memória que está fritando neste caso.

Responder2

Finalmente recebi uma resposta do suporte da Dell informando que o AMBFsensor poderia ser ignorado com segurança e o desligamento crítico a 80°C desativado.

Então criei um /etc/thermald/thermal-conf.xmlarquivo como este:

<?xml version="1.0"?>
<ThermalConfiguration>
  <Platform>
    <Name>Override AMBF critical trip point</Name>
    <ProductName>*</ProductName>
    <Preference>QUIET</Preference>
    <ThermalZones>
      <ThermalZone>
        <Type>AMBF</Type>
        <TripPoints>
          <TripPoint>
            <Temperature>95050</Temperature>
            <type>critical</type>
          </TripPoint>
          <TripPoint>
            <Temperature>80050</Temperature>
            <type>hot</type>
          </TripPoint>
        </TripPoints>
      </ThermalZone>
    </ThermalZones>
  </Platform>
</ThermalConfiguration>

Aqui, decidi definir um hotnível de 80°C onde estava inicialmente criticale manter uma rede de segurança com um criticalnível de 95°C.

Eu também instalei o mais recente thermalddoRepositório github da Intel

A partir daí, executei novamente meu teste e aqui está o gráfico da execução:

Temperaturas em °C durante o esforço da máquina

Como você pode ver, todas as temperaturas ainda são bem controladas e AMBFagora podem ultrapassar livremente os 80°C. Ele se estabiliza em cerca de 92°C em plena carga e retorna lentamente ao seu nível normal quando o funcionamento termina.

O problema foi corrigido e minha máquina está totalmente operacional.

informação relacionada