CPU負荷平均+しきい値を設定するタイミング

CPU負荷平均+しきい値を設定するタイミング

物理マシンHWのクラスタがあります

各マシンには32個のCPUが搭載されている

# lscpu
Architecture:          x86_64
CPU op-mode(s):        32-bit, 64-bit
Byte Order:            Little Endian
CPU(s):                32
On-line CPU(s) list:   0-31
Thread(s) per core:    2
Core(s) per socket:    8

稼働時間から5分までの負荷平均がしきい値に達するたびにアラームを送信します。

私の理解では、負荷平均(稼働開始から5分後)の値が32(CPU数)を超える場合は心配する必要がある。

私の言うことは正しいでしょうか?

答え1

負荷平均は主に CPU 負荷を示すものではなく、作業項目キューの長さの近似値です。実際には、実際に使用された CPU サイクルよりも、I/O 待機で無駄になった CPU サイクルの影響を大きく受けることがよくあります (もちろん、これはワークロードに依存します)。

ツールを見て、topCPUがどのくらいの時間を費やしているかをまず推定してみましょう。目安としては(そしてのみ考慮する

  • パーセンテージが高いほどUser正常です - マシンは正常に動作しています
  • パーセンテージが高い場合Sysは、あまり効率的でないアプリケーション(または最適化されていない OS/ドライバーの組み合わせを実行している VM ゲスト)を示している可能性があります。
  • 時間が長いというWaitことは、I/O (おそらくストレージ) が追いつかないことを意味します。これも、アプリケーション内で最適化が必要であることを示しているか、ストレージ ハードウェアに過度の負荷をかけているだけかもしれません (確認すべき主な場所: 遅延の影響を受けやすいワークロードに回転ディスクが使用されていますか? 小さな書き込みに RAID5 を使用していますか?)

関連情報