
Ich habe eine Amazon EC2 t2.medium-Instanz, die sehr merkwürdige CPU-Steal-Time-Werte anzeigt, hauptsächlich große negative Zahlen und auch sehr hohe CPU-Leerlaufzahlen.
Gibt es eine Erklärung für diese seltsamen Zahlen? Gibt es ein Systemupdate/einen Bugfix, den wir hier übersehen haben?
top - 13:36:23 up 51 days, 2:49, 1 user, load average: 0.35, 0.15, 0.12
Tasks: 97 total, 1 running, 96 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.0%sy, 0.0%ni,56000.0%id,200.0%wa, 0.0%hi, 0.0%si,-3849124577280.0%st
Mem: 4047964k total, 3905488k used, 142476k free, 29760k buffers
Swap: 0k total, 0k used, 0k free, 269332k cached
Antwort1
Ich glaube, ich habe es selbst gefunden. Es scheint sich um einen Fehler im Bereich Kernel/Xen/Kvm zu handeln. Er tritt seit Linux-Kernel 4.8 auf und wurde mit Linux-Kernel 4.11 behoben. Wir verwenden 4.9.x, sind also davon betroffen. Allerdings handelt es sich hier nicht um einen tatsächlichen Diebstahl, sondern nur um eine falsche Meldung aufgrund eines Zahlenüberlaufs im Kernel.
Sehenhttps://0xstubs.org/debugging-a-flaky-cpu-steal-time-counter-on-a-paravirtualized-xen-guest/für einen sehr schönen Artikel.