Se detectó hardware de PMU roto, usando solo eventos de software

Se detectó hardware de PMU roto, usando solo eventos de software

Tengo dos de cada cuatro máquinas (dell r815) que no muestran los contadores de hardware de la CPU cuando ejecuto (desde linux-tools-common en ubuntu o debian):

perf list

Utilicé strace y descubrí que el problema era que falta /sys/devices/cpu en las dos máquinas con el problema. Rastreé esto hasta un error en dmesg:

Performance Events: Broken PMU hardware detected, using software events only.

En las maquinas que funcionan dice

Performance Events: AMD PMU driver.

Mi pregunta es: ¿qué puedo hacer para asegurarme de que esto no sea solo un problema de software o de configuración? A mí me parece que podría tratarse de un hardware defectuoso.

Respuesta1

Descubrí que el problema era que la versión del microcódigo en las CPU de las máquinas afectadas era anterior. Intenté instalar el paquete amd64-microcode que actualizó el microcódigo, pero solo después de que el error de PMU ya había aparecido en dmesg. Utilicé la herramienta de configuración del servidor de arranque de Dell para actualizar la BIOS y el firmware del sistema y solucionó el problema. Con suerte, esto será útil para cualquier otra persona que se encuentre con el mismo problema.

información relacionada