Скачок в метрике Cadvisor container_network_receive_bytes_total в кластере Kubernetes

Скачок в метрике Cadvisor container_network_receive_bytes_total в кластере Kubernetes

Краткое содержание:

Я использую Cadvisor с Prometheus в нескольких кластерах Kubernetes (k8s) для мониторинга использования сетевого трафика. Я использую метрику container_network_receive_bytes_total в запросе для расчета общего использования сетевого трафика. Однако я столкнулся с необычной проблемой в одном из кластеров.

Проблема:

В одном из моих кластеров у меня есть непроизводственная база данных, которая работала гладко в течение 20 дней. Однако, начиная со вчерашнего дня, метрика container_network_receive_bytes_total показала значительный всплеск использования, хотя я уверен, что нагрузки нет. Эта проблема не единична. Я сталкивался с подобными случаями несколько раз, и все они, похоже, происходят в этом конкретном кластере. Я пытался воспроизвести ее многочисленными способами, но не смог этого сделать.

Вот запрос, который я использую:

(
    sum (
        increase (
            container_network_transmit_bytes_total{namespace="TEST"}[2d]
        )
    ) by (node, cluster, namespace, pod)
) / 1000000000

И это пик: здесь

Я считаю, что основная причина этой проблемы кроется в этом кластере, но мне нужны указания или подсказки о том, как ее устранить и решить.

Связанный контент