スティールタイム: EC2 インスタンスの top の %st の奇妙な値を解釈する方法

スティールタイム: EC2 インスタンスの top の %st の奇妙な値を解釈する方法

Amazon EC2 t2.medium インスタンスがありますが、非常に奇妙な CPU スチール時間値 (ほとんどが大きな負の数値と非常に高いアイドル CPU 数値) が表示されています。

このような奇妙な数字を説明するものはありますか? ここで見逃しているシステム更新/バグ修正はありますか?

top - 13:36:23 up 51 days,  2:49,  1 user,  load average: 0.35, 0.15, 0.12
Tasks:  97 total,   1 running,  96 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,56000.0%id,200.0%wa,  0.0%hi,  0.0%si,-3849124577280.0%st
Mem:   4047964k total,  3905488k used,   142476k free,    29760k buffers
Swap:        0k total,        0k used,        0k free,   269332k cached

答え1

自分で見つけたと思いますが、これはカーネル/Xen/Kvm の領域のバグのようです。Linux カーネル 4.8 以降で発生し、Linux カーネル 4.11 で修正されました。私たちは 4.9.x を実行しているので、この影響を受けていますが、結局のところ、これは実際の盗難状況ではなく、カーネル内の数値オーバーフローによる誤ったレポートです。

見るhttps://0xstubs.org/debugging-a-flaky-cpu-steal-time-counter-on-a-paravirtualized-xen-guest/とても素晴らしい記事を書いてくれてありがとう。

関連情報