Steal Time: Como interpretar valores estranhos para %st no topo em uma instância EC2

Steal Time: Como interpretar valores estranhos para %st no topo em uma instância EC2

Eu tenho uma instância t2.medium do Amazon EC2 que mostra valores de tempo de roubo de CPU muito estranhos, principalmente números negativos grandes e também números de CPU ociosos muito altos.

Alguma coisa que explique números tão estranhos? Alguma atualização/correção de bug do sistema que está faltando aqui?

top - 13:36:23 up 51 days,  2:49,  1 user,  load average: 0.35, 0.15, 0.12
Tasks:  97 total,   1 running,  96 sleeping,   0 stopped,   0 zombie
Cpu(s):  0.0%us,  0.0%sy,  0.0%ni,56000.0%id,200.0%wa,  0.0%hi,  0.0%si,-3849124577280.0%st
Mem:   4047964k total,  3905488k used,   142476k free,    29760k buffers
Swap:        0k total,        0k used,        0k free,   269332k cached

Responder1

Acho que descobri sozinho, parece que é um bug na área do Kernel/Xen/Kvm, acontece desde o Linux Kernel 4.8 e foi corrigido com o Linux Kernel 4.11. Executamos o 4.9.x, então somos afetados por isso, no entanto, não é uma situação real de roubo aqui, mas apenas relatórios incorretos devido a um estouro de número dentro do kernel.

Verhttps://0xstubs.org/debugging-a-flaky-cpu-steal-time-counter-on-a-paravirtualized-xen-guest/para um texto muito bom.

informação relacionada