
서버 성능 저하로 인해 일부 시간 서비스와 호스트가 응답을 중지합니다. 즉, 어떤 이유로든(많은 동시성 서비스 액세스, 서버에서 값비싼 백업 실행 또는 엄청난 양의 서버 리소스를 소비하는 모든 것 등) 서버 성능이 매우 저하되면 서버가 다음 작업을 수행할 수 없게 될 수 있습니다. "일반 네트워크 통신"을 설정합니다(해당 통신에 대해 정의된 표준 시간 초과를 트리거하지 않고).
해당 기간 동안 사용 가능한 경우(호스트가 다운되지 않았고 성능 저하에도 불구하고 여전히 플러그인이 성능 데이터를 수집할 수 있는 경우) 호스트의 성능 데이터(CPU, 메모리 등)를 아는 것은 시스템 관리자가 원인을 파악하는 데 매우 유용할 수 있습니다. 문제는 적어도 호스트 성능이 좋고 호스트/서비스 다운에 전혀 방해가 되지 않는 경우입니다.
이 문제는 호스트 성능이나 네트워크 중단이 허용될 때 원격 솔루션이 중앙 Nagios 서버로 보낼 성능 데이터를 저장(버퍼링)할 수 있는 경우 원격 활성(NRPE) 또는 원격 수동(NSCA)을 사용하여 해결될 수 있습니다. 두 솔루션의 문서를 읽었지만 NSCA가 Nagios 서버에 도달할 수 없는 경우 발생한 버퍼 메커니즘에 대한 참조를 찾을 수 없습니다.
이러한 정보 부족을 어떻게 해결할 수 있을지 아시나요? 법의학 분석에 매우 유용합니다.
편집하다:
내 질문은 성능 문제를 디버깅하거나 분석을 위해 성능 데이터를 수집하는 데 사용할 수 있는 도구에 관한 것이지만 사후 분석(일종의 포렌식 분석)을 위해 네트워크 중단 중에도 호스트 성능 데이터를 수집(Nagios 사용)하는 방법에 관한 것입니다. 아이디어는 이러한 데이터를 pnp4nagios 및 NagiosGrapther와 같은 Nagios 그래퍼에 통합하는 것입니다. 각 호스트에 Cacti와 같은 도구를 설치할 수 있고 일종의 성능 데이터 수집 중복성이 있다는 것을 알고 있지만 실제로는 이를 피하고 Nagios라는 하나의 도구로 모든 성능 분석 요구 사항을 해결하려고 합니다.
답변1
Nagios에 대해서는 잘 모르겠지만, 서버에 로그인할 수 있으면 아래 세부 정보를 수집하여 문제의 범위를 좁히는 데 도움이 될 것입니다. 아래 명령을 사용하면 누가 CPU와 메모리를 더 많이 소비하는지 확인할 수 있습니다. 아니면 시스템이 OOM 상태에 있습니까?
top -n 5 -b
vmstat 1 50
iostat -x 2 10
ps -aufx
sar 1 50
cat /proc/meminfo
cat /proc/buddyinfo