Краткое содержание:
Я использую Cadvisor с Prometheus в нескольких кластерах Kubernetes (k8s) для мониторинга использования сетевого трафика. Я использую метрику container_network_receive_bytes_total в запросе для расчета общего использования сетевого трафика. Однако я столкнулся с необычной проблемой в одном из кластеров.
Проблема:
В одном из моих кластеров у меня есть непроизводственная база данных, которая работала гладко в течение 20 дней. Однако, начиная со вчерашнего дня, метрика container_network_receive_bytes_total показала значительный всплеск использования, хотя я уверен, что нагрузки нет. Эта проблема не единична. Я сталкивался с подобными случаями несколько раз, и все они, похоже, происходят в этом конкретном кластере. Я пытался воспроизвести ее многочисленными способами, но не смог этого сделать.
Вот запрос, который я использую:
(
sum (
increase (
container_network_transmit_bytes_total{namespace="TEST"}[2d]
)
) by (node, cluster, namespace, pod)
) / 1000000000
И это пик: здесь
Я считаю, что основная причина этой проблемы кроется в этом кластере, но мне нужны указания или подсказки о том, как ее устранить и решить.