Aumento na métrica container_network_receive_bytes_total do Cadvisor em um cluster Kubernetes

Aumento na métrica container_network_receive_bytes_total do Cadvisor em um cluster Kubernetes

Resumo:

Estou usando o Cadvisor com Prometheus em vários clusters Kubernetes (k8s) para monitorar o uso do tráfego de rede. Eu utilizo a métrica container_network_receive_bytes_total em uma consulta para calcular o uso total do tráfego de rede. No entanto, estou encontrando um problema incomum em um dos clusters.

Problema:

Em um dos meus clusters, tenho um banco de dados que não é de produção e está funcionando perfeitamente há 20 dias. No entanto, a partir de ontem, a métrica container_network_receive_bytes_total mostrou um aumento significativo no uso, embora eu tenha certeza de que não há aumento na carga. Esta questão não é isolada. Encontrei ocorrências semelhantes várias vezes e todas parecem acontecer neste cluster específico. Tentei várias abordagens para reproduzi-lo, mas não consegui.

Esta é a consulta que estou usando:

(
    sum (
        increase (
            container_network_transmit_bytes_total{namespace="TEST"}[2d]
        )
    ) by (node, cluster, namespace, pod)
) / 1000000000

E este é o pico: aqui

Acredito que a causa raiz desse problema esteja neste cluster, mas estou buscando orientação ou dicas sobre como solucionar o problema e resolvê-lo.

informação relacionada