Nagios를 사용하여 접속 불가/다운 기간 동안 서버의 성능 데이터를 수집하는 방법은 무엇입니까?

Nagios를 사용하여 접속 불가/다운 기간 동안 서버의 성능 데이터를 수집하는 방법은 무엇입니까?

서버 성능 저하로 인해 일부 시간 서비스와 호스트가 응답을 중지합니다. 즉, 어떤 이유로든(많은 동시성 서비스 액세스, 서버에서 값비싼 백업 실행 또는 엄청난 양의 서버 리소스를 소비하는 모든 것 등) 서버 성능이 매우 저하되면 서버가 다음 작업을 수행할 수 없게 될 수 있습니다. "일반 네트워크 통신"을 설정합니다(해당 통신에 대해 정의된 표준 시간 초과를 트리거하지 않고).

해당 기간 동안 사용 가능한 경우(호스트가 다운되지 않았고 성능 저하에도 불구하고 여전히 플러그인이 성능 데이터를 수집할 수 있는 경우) 호스트의 성능 데이터(CPU, 메모리 등)를 아는 것은 시스템 관리자가 원인을 파악하는 데 매우 유용할 수 있습니다. 문제는 적어도 호스트 성능이 좋고 호스트/서비스 다운에 전혀 방해가 되지 않는 경우입니다.

이 문제는 호스트 성능이나 네트워크 중단이 허용될 때 원격 솔루션이 중앙 Nagios 서버로 보낼 성능 데이터를 저장(버퍼링)할 수 있는 경우 원격 활성(NRPE) 또는 원격 수동(NSCA)을 사용하여 해결될 수 있습니다. 두 솔루션의 문서를 읽었지만 NSCA가 Nagios 서버에 도달할 수 없는 경우 발생한 버퍼 메커니즘에 대한 참조를 찾을 수 없습니다.

이러한 정보 부족을 어떻게 해결할 수 있을지 아시나요? 법의학 분석에 매우 유용합니다.

편집하다:

내 질문은 성능 문제를 디버깅하거나 분석을 위해 성능 데이터를 수집하는 데 사용할 수 있는 도구에 관한 것이지만 사후 분석(일종의 포렌식 분석)을 위해 네트워크 중단 중에도 호스트 성능 데이터를 수집(Nagios 사용)하는 방법에 관한 것입니다. 아이디어는 이러한 데이터를 pnp4nagios 및 NagiosGrapther와 같은 Nagios 그래퍼에 통합하는 것입니다. 각 호스트에 Cacti와 같은 도구를 설치할 수 있고 일종의 성능 데이터 수집 중복성이 있다는 것을 알고 있지만 실제로는 이를 피하고 Nagios라는 하나의 도구로 모든 성능 분석 요구 사항을 해결하려고 합니다.

답변1

Nagios에 대해서는 잘 모르겠지만, 서버에 로그인할 수 있으면 아래 세부 정보를 수집하여 문제의 범위를 좁히는 데 도움이 될 것입니다. 아래 명령을 사용하면 누가 CPU와 메모리를 더 많이 소비하는지 확인할 수 있습니다. 아니면 시스템이 OOM 상태에 있습니까?

top -n 5 -b 
vmstat 1 50 
iostat -x 2 10
ps -aufx 
sar 1 50 
cat /proc/meminfo 
cat /proc/buddyinfo 

관련 정보