Обнаружено неисправное оборудование PMU, только с использованием программных событий

Обнаружено неисправное оборудование PMU, только с использованием программных событий

У меня есть две из четырех машин (dell r815), на которых не отображаются счетчики оборудования ЦП при запуске (из linux-tools-common на Ubuntu или Debian):

perf list

Я использовал strace и обнаружил, что проблема была в том, что /sys/devices/cpu отсутствует на двух машинах с проблемой. Я отследил это до ошибки в dmesg:

Performance Events: Broken PMU hardware detected, using software events only.

На машинах, которые работают, написано:

Performance Events: AMD PMU driver.

Мой вопрос: что я могу сделать, чтобы убедиться, что это не просто проблема программного обеспечения или конфигурации? Мне кажется, что это может быть плохое оборудование.

решение1

Я выяснил, что проблема была в том, что версия микрокода на процессорах затронутых машин была более старой. Я попробовал установить пакет amd64-microcode, который обновил микрокод, но только после того, как ошибка PMU уже появилась в dmesg. Я использовал загрузочный инструмент конфигурации сервера Dell для обновления BIOS и системной прошивки, и это исправило проблему. Надеюсь, это будет полезно всем, кто столкнется с той же проблемой.

Связанный контент