僅使用軟體事件偵測到損壞的 PMU 硬體

僅使用軟體事件偵測到損壞的 PMU 硬體

我有四分之二的機器(dell r815)在運行時沒有顯示 cpu 硬體計數器(來自 ubuntu 或 debian 上的 linux-tools-common):

perf list

我使用 strace 發現問題是有問題的兩台機器上缺少 /sys/devices/cpu 。我將此追溯到 dmesg 中的一個錯誤:

Performance Events: Broken PMU hardware detected, using software events only.

在工作的機器上它說

Performance Events: AMD PMU driver.

我的問題是:我該怎麼做才能確保這不僅僅是軟體或配置問題?對我來說,它看起來可能是壞硬體。

答案1

我發現問題在於受影響機器的 CPU 上的微代碼版本較舊。我嘗試安裝 amd64-microcode 包,它確實更新了微碼,但只有在 PMU 錯誤已經顯示在 dmesg 中之後。我使用戴爾的可啟動伺服器設定工具來更新 BIOS 和系統韌體,它解決了問題。希望這對遇到相同問題的其他人有所幫助。

相關內容