요약:
네트워크 트래픽 사용량을 모니터링하기 위해 여러 Kubernetes(k8s) 클러스터에서 Prometheus와 함께 Cadvisor를 사용하고 있습니다. 총 네트워크 트래픽 사용량을 계산하기 위해 쿼리에서 Container_network_receive_bytes_total 측정항목을 활용합니다. 그러나 클러스터 중 하나에서 특이한 문제가 발생했습니다.
문제:
내 클러스터 중 하나에는 20일 동안 원활하게 실행된 비프로덕션 데이터베이스가 있습니다. 그러나 어제부터 부하 증가가 없다고 확신하는데도 불구하고 컨테이너_네트워크_receive_bytes_total 측정항목의 사용량이 크게 급증했습니다. 이 문제는 고립되어 있지 않습니다. 비슷한 일이 여러 번 발생했는데 모두 이 특정 클러스터에서 발생하는 것 같습니다. 이를 재현하기 위해 여러 가지 접근 방식을 시도했지만 실패했습니다.
이것은 내가 사용하는 쿼리입니다.
(
sum (
increase (
container_network_transmit_bytes_total{namespace="TEST"}[2d]
)
) by (node, cluster, namespace, pod)
) / 1000000000
그리고 이것은 스파이크입니다. 여기
이 문제의 근본 원인은 이 클러스터에 있다고 생각하지만 문제를 해결하는 방법에 대한 지침이나 단서를 찾고 있습니다.