- 신켄 2.0.3
- NRPE 2.15
우리는 사용하고 있습니다nsca수동적 검사를 수행합니다.
define service {
name salt-service
register 0
active_checks_enabled 0
passive_checks_enabled 1
check_freshness 1
freshness_threshold 600
max_check_attempts 2
check_interval 5
retry_interval 3
}
define service {
use salt-service
service_description syncthing_procs-2
host_name x
check_command check_nrpe!syncthing_procs!10
display_name Syncthing Procs
}
10분 이지만 freshness_threshold
수동 검사가 오래되는 경우가 있습니다.
Oct 6 09:52:36 x shinken: [Tue Oct 6 09:52:35 2015] 경고: 호스트 'x'의 'syncthing_procs-2' 서비스 결과가 0d 0h 10m 16s(임계값=16714d 9h 42m)까지 유효하지 않습니다. 35초). 서비스를 즉시 확인하도록 강요하고 있습니다.
아, threshold=16714d 9h 42m 35s
구성 파일에서 10분으로 설정했는데 어디서 왔나요? 물론, Shinken VM과 호스트 'x'의 시스템 시간은 동일합니다.
그런 오래된 서비스가 너무 많아요. 보시다시피, 수동 검사가 오래된 후에는 check_nrpe
활성 검사를 수행하는 데 사용됩니다. 문제는 이제 정지된 것처럼 보이는 nrpe 프로세스가 너무 많다는 것입니다.
nagios 31404 1 0 Sep18 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31727 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 31732 1 0 Oct01 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32148 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
nagios 32157 1 0 Sep30 ? 00:00:00 /usr/sbin/nrpe -c /etc/nagios/nrpe.cfg -d
몇 개만 붙여넣었습니다. 실제로 200개 이상의 프로세스가 있습니다.
따라서 잘못된 임계값 외에도 또 다른 질문이 있습니다. 그 이후에 왜 그렇게 많은 nrpe 프로세스가 있습니까? 활성 검사를 수행할 때 새로운 프로세스가 분기된다는 것을 알고 있습니다. 그런데 검사가 끝나면 사라져야겠죠?
아, 첫 번째 질문에 대한 답을 알고 있어요.
아, 구성 파일에서 10분으로 설정한 동안 임계값=16714d 9h 42m 35s는 어디에서 왔습니까?
신켄과 나기오스 사이에는 약간 다른 점이 있는 것 같습니다. 일/시/분/초 단위의 Epoch 시간입니다.
expr $(date +%s) / 3600 / 24
16714
답변1
귀하의 경우 정확히 무엇이 잘못되었는지 알 수 없습니다. 그래서 여기에 몇 가지 생각이 있습니다.
우리는 수동 검사를 수행하기 위해 nsca를 사용하고 있습니다. 그 이후에는 왜 그렇게 많은 nrpe 프로세스가 있습니까? 활성 검사를 수행할 때 새로운 프로세스가 분기된다는 것을 알고 있습니다. 근데 점검이 끝나면 사라져야겠죠?
nsca가 제대로 작동하지 않는 것 같습니다. 그런 다음 활성 검사가 수행되었습니다. nsca가 작동하는지 확인하세요.
freshness_threshold가 10분임에도 패시브 체크가 오래된 경우가 있습니다.
또는 nsca가 shinken에 수동 결과를 보내도록 구성되지 않았습니다.
활성 검사를 수행할 때 새로운 프로세스가 분기된다는 것을 알고 있습니다. 근데 점검이 끝나면 사라져야겠죠?
어쩌면 확인이 완료되지 않았고 연결이 상대방에 의해 유지되었을 수도 있습니다(신켄)