Como coletar os dados de desempenho de um servidor durante um período inacessível/inativo usando o Nagios?

Como coletar os dados de desempenho de um servidor durante um período inacessível/inativo usando o Nagios?

Alguns serviços de tempo e host param de responder devido ao baixo desempenho do servidor. Quero dizer, se por algum motivo (pode haver muitos acessos simultâneos a serviços, uma execução de backup cara no servidor ou qualquer outra coisa que consuma toneladas de recursos do servidor) o desempenho do servidor estiver muito degradado, isso pode fazer com que o servidor não seja capaz de estabelecer qualquer "comunicação normal de rede" (sem acionar quaisquer padrões de timeout definidos para tal comunicação).

Conhecer os dados de desempenho do host (cpu, memória, ...) em caso de disponibilidade durante esse período (o host não está inativo e apesar de sua degradação de desempenho ainda permite que os plug-ins coletem dados de desempenho) pode ser muito útil para o administrador do sistema tentar determinar qual causa o problema, ou pelo menos, se o desempenho do host foi bom e não interferiu em nada na queda do host/serviço.

Este problema poderia ser resolvido usando controle remoto ativo (NRPE) ou passivo remoto (NSCA) se tais soluções remotas pudessem armazenar dados de desempenho (em buffer) para serem enviados ao servidor central Nagios quando o desempenho do host ou interrupção da rede permitirem. Li o documento de ambas as soluções e não consigo encontrar nenhuma referência a esse mecanismo de buffer nem ao que aconteceu caso o NSCA não consiga acessar o servidor Nagios.

Alguma ideia de como resolver essa falta de informação? tão útil para análise forense.

EDITAR:

Minhas dúvidas são sobre quais ferramentas posso usar para depurar problemas de desempenho ou coletar dados de desempenho para análise, mas é sobre como coletar (usando Nagios) dados de desempenho do host mesmo durante uma interrupção da rede para sua análise posterior (uma espécie de análise forense). A ideia é integrar esses dados aos gráficos Nagios como pnp4nagios e NagiosGrapther. Eu sei que poderia instalar ferramentas como o Cacti em cada um dos meus hosts e ter uma espécie de redundância na coleta de dados de desempenho, mas realmente quero evitar isso e tentar resolver todos os requisitos de análise de desempenho com uma ferramenta: Nagios

Responder1

Não tenho certeza sobre o Nagios, mas se você conseguir fazer login no servidor, colete os detalhes abaixo, o que o ajudará a identificar o problema. Com a ajuda do comando abaixo você pode identificar quem está consumindo mais CPU e memória. Ou o sistema está em condições OOM.

top -n 5 -b 
vmstat 1 50 
iostat -x 2 10
ps -aufx 
sar 1 50 
cat /proc/meminfo 
cat /proc/buddyinfo 

informação relacionada