CPU負荷平均+しきい値を設定するタイミング

2024-7-9 • tag-icon

linux cpu performance top uptime

CPU負荷平均+しきい値を設定するタイミング

物理マシンHWのクラスタがあります

各マシンには32個のCPUが搭載されている

# lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                32
On-line CPU(s) list:   0-31
Thread(s) per core:    2
Core(s) per socket:    8

稼働時間から5分までの負荷平均がしきい値に達するたびにアラームを送信します。

私の理解では、負荷平均（稼働開始から5分後）の値が32（CPU数）を超える場合は心配する必要がある。

私の言うことは正しいでしょうか？

答え1

負荷平均は主に CPU 負荷を示すものではなく、作業項目キューの長さの近似値です。実際には、実際に使用された CPU サイクルよりも、I/O 待機で無駄になった CPU サイクルの影響を大きく受けることがよくあります (もちろん、これはワークロードに依存します)。

ツールを見て、topCPUがどのくらいの時間を費やしているかをまず推定してみましょう。目安としては（そしてのみ考慮する

パーセンテージが高いほどUser正常です - マシンは正常に動作しています
パーセンテージが高い場合Sysは、あまり効率的でないアプリケーション（または最適化されていない OS/ドライバーの組み合わせを実行している VM ゲスト）を示している可能性があります。
時間が長いというWaitことは、I/O (おそらくストレージ) が追いつかないことを意味します。これも、アプリケーション内で最適化が必要であることを示しているか、ストレージハードウェアに過度の負荷をかけているだけかもしれません (確認すべき主な場所: 遅延の影響を受けやすいワークロードに回転ディスクが使用されていますか? 小さな書き込みに RAID5 を使用していますか?)

関連情報