物理マシンHWのクラスタがあります
各マシンには32個のCPUが搭載されている
# lscpu
Architecture: x86_64
CPU op-mode(s): 32-bit, 64-bit
Byte Order: Little Endian
CPU(s): 32
On-line CPU(s) list: 0-31
Thread(s) per core: 2
Core(s) per socket: 8
稼働時間から5分までの負荷平均がしきい値に達するたびにアラームを送信します。
私の理解では、負荷平均(稼働開始から5分後)の値が32(CPU数)を超える場合は心配する必要がある。
私の言うことは正しいでしょうか?
答え1
負荷平均は主に CPU 負荷を示すものではなく、作業項目キューの長さの近似値です。実際には、実際に使用された CPU サイクルよりも、I/O 待機で無駄になった CPU サイクルの影響を大きく受けることがよくあります (もちろん、これはワークロードに依存します)。
ツールを見て、top
CPUがどのくらいの時間を費やしているかをまず推定してみましょう。目安としては(そしてのみ考慮する
- パーセンテージが高いほど
User
正常です - マシンは正常に動作しています - パーセンテージが高い場合
Sys
は、あまり効率的でないアプリケーション(または最適化されていない OS/ドライバーの組み合わせを実行している VM ゲスト)を示している可能性があります。 - 時間が長いという
Wait
ことは、I/O (おそらくストレージ) が追いつかないことを意味します。これも、アプリケーション内で最適化が必要であることを示しているか、ストレージ ハードウェアに過度の負荷をかけているだけかもしれません (確認すべき主な場所: 遅延の影響を受けやすいワークロードに回転ディスクが使用されていますか? 小さな書き込みに RAID5 を使用していますか?)