Como faço para descobrir o que está causando o uso excessivo da CPU no mecanismo de contêiner do Google?

Como faço para descobrir o que está causando o uso excessivo da CPU no mecanismo de contêiner do Google?

Eu tenho um cluster de nó único no mecanismo de contêiner que fica em aproximadamente 40% da CPU quando ocioso, conforme visto pelo painel de monitoramento.

Quando clico no monitoramento, todos os pods estão com 0% da CPU.

Quando faço ssh na instância, vejo que docker, kubelet e heapster são os principais culpados, mas não entendo que trabalho eles estão fazendo.

Se eu olhar nos logs, vejo linhas como as seguintes, repetidas inúmeras vezes por segundo. Acho que isso está relacionado.

gke-rogue-dev-7248e467-node-9hvh 2015-10-13 19:50:55.000 time="2015-10-13T23:50:55Z" level=info msg="-job containers() = OK (0)"
gke-rogue-dev-7248e467-node-9hvh 2015-10-13 19:50:55.000 time="2015-10-13T23:50:55Z" level=info msg="+job containers()"
gke-rogue-dev-7248e467-node-9hvh 2015-10-13 19:50:55.000 time="2015-10-13T23:50:55Z" level=info msg="GET /containers/json"

Qual deve ser meu próximo passo para descobrir por que isso está acontecendo?

Responder1

Eu tive a mesma pergunta recentemente: https://serverfault.com/q/728211/310585

A resposta para "que trabalho eles estão fazendo" é "registro e monitoramento".

Para evitar essa sobrecarga, você só precisa desmarcar esses recursos ao criar o cluster. No console do desenvolvedor existem caixas de seleção para eles. Na CLI adicione as opções --no-enable-cloud-logging --no-enable-cloud-monitoringao gcloud container clusters createcomando.

informação relacionada