ソフトウェア イベントのみを使用して、壊れた PMU ハードウェアが検出されました

ソフトウェア イベントのみを使用して、壊れた PMU ハードウェアが検出されました

4 台のマシンのうち 2 台 (dell r815) で、(Ubuntu または Debian の linux-tools-common から) 実行時に CPU ハードウェア カウンターが表示されません。

perf list

strace を使用したところ、問題が発生している 2 台のマシンで /sys/devices/cpu が欠落していることが原因であることが分かりました。これを dmesg のエラーまでさかのぼって調べました。

Performance Events: Broken PMU hardware detected, using software events only.

稼働中の機械にはこう書いてある

Performance Events: AMD PMU driver.

私の質問は、これが単なるソフトウェアや構成の問題ではないことを確認するために何ができるかということです。私には、ハードウェアの不良のように見えます。

答え1

問題は、影響を受けたマシンの CPU のマイクロコード バージョンが古いことにあることがわかりました。 amd64-microcode パッケージをインストールしてみましたが、マイクロコードが更新されましたが、PMU エラーが dmesg に表示された後でのみ更新されました。 Dell の起動可能なサーバー構成ツールを使用して BIOS とシステム ファームウェアを更新したところ、問題は解決しました。同じ問題に遭遇した他の方にも、この情報が役立つことを願っています。

関連情報