Hardware de PMU quebrado detectado, usando apenas eventos de software

Hardware de PMU quebrado detectado, usando apenas eventos de software

Eu tenho duas das quatro máquinas (dell r815) que não mostram os contadores de hardware da CPU quando executo (do linux-tools-common no ubuntu ou debian):

perf list

Usei strace e descobri que o problema era que /sys/devices/cpu estava faltando nas duas máquinas com problema. Rastreei isso até um erro no dmesg:

Performance Events: Broken PMU hardware detected, using software events only.

Nas máquinas que funcionam diz

Performance Events: AMD PMU driver.

Minha pergunta é: o que posso fazer para garantir que isso não seja apenas um problema de software ou configuração? Para mim, parece que pode ser um hardware ruim.

Responder1

Descobri que o problema era que a versão do microcódigo nas CPUs das máquinas afetadas era mais antiga. Tentei instalar o pacote amd64-microcode que atualizou o microcódigo, mas somente depois que o erro PMU já havia aparecido no dmesg. Usei a ferramenta de configuração de servidor inicializável da Dell para atualizar o BIOS e o firmware do sistema e isso resolveu o problema. Esperamos que isso seja útil para qualquer pessoa que tenha o mesmo problema.

informação relacionada