NSCA 수동적 부실 -> 다중 정지 nrpe 프로세스?

NSCA 수동적 부실 -> 다중 정지 nrpe 프로세스?
  • 신켄 2.0.3
  • NRPE 2.15

우리는 사용하고 있습니다nsca수동적 검사를 수행합니다.

define service {
    name salt-service
    register 0

    active_checks_enabled 0
    passive_checks_enabled 1
    check_freshness 1
    freshness_threshold 600
    max_check_attempts 2
    check_interval 5
    retry_interval 3
}

define service {
    use salt-service
    service_description syncthing_procs-2
    host_name x
    check_command check_nrpe!syncthing_procs!10
    display_name Syncthing Procs
}

10분 이지만 freshness_threshold수동 검사가 오래되는 경우가 있습니다.

Oct 6 09:52:36 x shinken: [Tue Oct 6 09:52:35 2015] 경고: 호스트 'x'의 'syncthing_procs-2' 서비스 결과가 0d 0h 10m 16s(임계값=16714d 9h 42m)까지 유효하지 않습니다. 35초). 서비스를 즉시 확인하도록 강요하고 있습니다.

아, threshold=16714d 9h 42m 35s구성 파일에서 10분으로 설정했는데 어디서 왔나요? 물론, Shinken VM과 호스트 'x'의 시스템 시간은 동일합니다.

그런 오래된 서비스가 너무 많아요. 보시다시피, 수동 검사가 오래된 후에는 check_nrpe활성 검사를 수행하는 데 사용됩니다. 문제는 이제 정지된 것처럼 보이는 nrpe 프로세스가 너무 많다는 것입니다.

nagios   31404     1  0 Sep18 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   31727     1  0 Oct01 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   31732     1  0 Oct01 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   32148     1  0 Sep30 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios   32157     1  0 Sep30 ?        00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d

몇 개만 붙여넣었습니다. 실제로 200개 이상의 프로세스가 있습니다.

따라서 잘못된 임계값 외에도 또 다른 질문이 있습니다. 그 이후에 왜 그렇게 많은 nrpe 프로세스가 있습니까? 활성 검사를 수행할 때 새로운 프로세스가 분기된다는 것을 알고 있습니다. 그런데 검사가 끝나면 사라져야겠죠?


아, 첫 번째 질문에 대한 답을 알고 있어요.

아, 구성 파일에서 10분으로 설정한 동안 임계값=16714d 9h 42m 35s는 어디에서 왔습니까?

신켄과 나기오스 사이에는 약간 다른 점이 있는 것 같습니다. 일/시/분/초 단위의 Epoch 시간입니다.

expr $(date +%s) / 3600 / 24
16714

답변1

귀하의 경우 정확히 무엇이 잘못되었는지 알 수 없습니다. 그래서 여기에 몇 가지 생각이 있습니다.

우리는 수동 검사를 수행하기 위해 nsca를 사용하고 있습니다. 그 이후에는 왜 그렇게 많은 nrpe 프로세스가 있습니까? 활성 검사를 수행할 때 새로운 프로세스가 분기된다는 것을 알고 있습니다. 근데 점검이 끝나면 사라져야겠죠?

nsca가 제대로 작동하지 않는 것 같습니다. 그런 다음 활성 검사가 수행되었습니다. nsca가 작동하는지 확인하세요.

freshness_threshold가 10분임에도 패시브 체크가 오래된 경우가 있습니다.

또는 nsca가 shinken에 수동 결과를 보내도록 구성되지 않았습니다.

활성 검사를 수행할 때 새로운 프로세스가 분기된다는 것을 알고 있습니다. 근데 점검이 끝나면 사라져야겠죠?

어쩌면 확인이 완료되지 않았고 연결이 상대방에 의해 유지되었을 수도 있습니다(신켄)

관련 정보