내 Prometheus 경고 상태에 대한 개요를 제공할 수 있는 경고 설정은 무엇입니까?

내 Prometheus 경고 상태에 대한 개요를 제공할 수 있는 경고 설정은 무엇입니까?

나는 경고가 발생할 때 슬랙에 메시지를 게시하기 위해 prometheus와 Alertmanager를 사용하고 있습니다. 둘 다 Kube에서 자체 호스팅됩니다. PII 문제로 인해 관리 계측 솔루션을 사용할 수 없습니다.

모든 알림의 현재 상태를 한눈에 볼 수 있는 옵션을 찾고 있습니다. 현재 시스템 오류는 1~20개의 경고를 트리거할 수 있으며 1~40개의 여유 메시지(높은 경고, 낮은 경고에 대해 각각 하나씩)로 나타날 수 있으며 내용을 놓칠 수 있을 만큼 시끄럽습니다.

내가 선호하는 도구는 예를 들어 10분마다 하나의 여유 메시지를 게시하고 상태가 변경될 때마다 이를 계속 편집하는 도구입니다.

Grafana 대시보드를 실험해 보았지만 누군가가 이를 사전에 확인하는 경우가 드물기 때문에 실용적이지 않다는 것을 알게 되었습니다.

시스템 상태의 상태를 어떻게 효율적으로 관찰합니까?

답변1

프로메테우스에 특정한 정보를 얻지 않고도 좋은 모니터링 시스템은 다음과 같은 정보를 제공합니다.둘 다방법: 사용자가 알아야 한다고 생각하는 내용을 알려주고, 알고 싶은 내용을 가능한 한 빠르고 효율적으로 찾을 수 있도록 해줍니다.

제가 개인적으로 선호하는 것은 NAGIOS입니다. 그 이유는 그것의 경고 끝이 매우 정교하기 때문입니다(여러 경고 채널, 정전 기간, 승인 및 에스컬레이션 등). 또한 네트워크 상태를 한 번에 확인할 수 있는 매우 멋진 개요 보기가 있기 때문입니다. 섬광.

후자에 대해 제가 개인적으로 가장 좋아하는 것은 (a) 거의 천 개의 서비스 검사를 실행하는 약 100개 노드의 상태를 한 눈에 볼 수 있는 "원형 풍선" 모드의 네트워크 맵과 (b) "처리되지 않은 서비스 문제"입니다. " 보기를 통해 자세한 목록을 확인할 수 있습니다.모든 것현재 내 네트워크에 없는 것 같아요.

하지만어느하는 도구둘 다일을 효과적으로(당신에게 알려줍니다.그리고개요를 제공합니다)이 도움이 될 것입니다. 자신에게 맞는 것을 찾을 때까지 몇 가지를 시도해 보십시오.

관련 정보