nagios 서버의 높은 부하 - nagios 서버에 대한 서비스 검사 횟수가 너무 많습니까?

nagios 서버의 높은 부하 - nagios 서버에 대한 서비스 검사 횟수가 너무 많습니까?

2.0GHz Intel 프로세서, RAID10 어레이 및 400MB RAM을 갖춘 Ubuntu를 실행하는 nagios 서버가 있습니다. 8개의 호스트에 걸쳐 총 42개의 서비스를 모니터링하며, 대부분은 check_http 플러그인을 사용하여 5분 동안, 일부는 1분마다 확인됩니다. 최근 nagios 서버의 로드는 4를 초과했으며 때로는 6까지 높습니다. 서버는 또한 Cacti를 실행하여 6개의 호스트에 대해 매분 통계를 수집합니다.

이와 같은 하드웨어가 얼마나 많은 서비스를 처리할 수 있는지 궁금합니다. 하드웨어의 한계를 뛰어넘기 때문에 부하가 너무 높은가요? 아니면 이 하드웨어가 42개의 서비스 검사와 선인장을 처리할 수 있어야 합니까? 하드웨어가 부적절할 경우 RAM, 코어 또는 더 빠른 코어를 추가해야 합니까? 다른 사람들은 어떤 하드웨어/서비스 검사를 실행하고 있나요?

답변1

병목 현상이 발생하는 위치를 파악해야 합니다.

나는 http, ping 및 ssh 검사를 통해 400개 이상의 호스트를 검사하는 nagios 모니터를 실행합니다. (다른 많은 수동 검사 및 nscd와 함께)

이것은 RAID10에 4개의 SAS 디스크가 있는 2xQuadCore 서버에 있습니다.

많은 rrd에 쓰는 것은 매우 비효율적이므로 IO 경합이 발생하고 있는 것 같습니다.

어떤 프로세스가 리소스를 차지하고 있는지 파악해야 합니다. (선인장, nagios 또는 다른 것)

IO 검사에는 iotop을 좋아합니다. iotop 설치(9.04 패키지는 8.04에서 작동)

하지만 그렇지 않으면 top은 로드 호그를 찾는 데도 도움이 될 것입니다.

1분에 한 번 선인장은 꽤 공격적입니다. (저는 5m 간격으로 운행합니다)

rrd 쓰기 경합에 대해 제가 들어본 접근 방식 중 하나는 rrd 저장소를 램디스크/tmpfs에 두는 것입니다. (가끔 영구 저장소에 재동기화하세요)

행운을 빌어요.

답변2

대부분의 부하를 생성하는 선인장이 아니라면 하드웨어에서 수행하는 것보다 더 많은 검사를 실행할 수 있어야 합니다.

저는 매우 느린 구형 PC(느린 PATA 디스크가 있는 Pentium 3 1GHz)의 Microsoft Virtual Server에서 실행되는 FreeBSD 가상 머신에서 nagios를 실행하고 있습니다. 가상 머신의 RAM은 128MB에 불과하며 성능은 형편없습니다.

그러나 로드 평균은 약 0.2이며 42개의 호스트에서 158개의 검사를 실행합니다.

답변3

256MB RAM을 갖춘 오래된 PIII에서 나는 약 230개의 다양한 서비스를 적극적으로 모니터링하고 있습니다. 동일한 기계는 수신되는 모든 팩스에 대해 MRTG 및 HylaFAX도 실행하고 있으며 아주 편안하게 작업을 수행하고 있습니다.

답변4

해당 하드웨어로 수많은 nagios 검사를 실행할 수 있어야 합니다. 우리는 약 70개의 검사와 Nagiosgraph를 사용하여 유사한 설정을 실행합니다. 가장 큰 차이점은 RAM이 추가된다는 점입니다(저렴하므로 2GB로 늘리겠습니다).

CPU가 과부하되었는지 확인하기 위해 top 또는 ps -aux를 실행해 보지만 의심스럽습니다. nagios를 확인하고 싶을 수도 있습니다.병렬화 문서설치가 직렬화하는 대신 한 번에 너무 많은 검사를 실행하려고 하는지 확인하세요.

관련 정보