
Eu tenho um servidor executando várias tarefas no tráfego que chega até ele.
Ultimamente o servidor tem gaguejado. Quando o sistema engasga, ele reinicia - isso me deixa com poucas informações significativas quanto à patologia do estrangulamento (definitivamente não é um acidente violento).
Qual ferramenta em sua experiência o ajudou a preservar dados significativos relacionados a um bloqueio do sistema.
Pode ser consumo de memória, "ps", "top" ou qualquer outro parâmetro.
Lembre-se, um script que simplesmente gera vários comandos longos (ps -a) de vez em quando - pode usar armazenamento massivo e ser difícil de analisar.
Responder1
Instale o SAR, ele fornece instantâneos de dados a cada 10 minutos por padrão, mas você pode alterar a taxa de informações usando o cron job.
Ele fornecerá muitos dados úteis, como memória, uso de carga da CPU e estatísticas de E/S de disco.
Responder2
você precisa de uma análise histórica dos parâmetros mais comuns do sistema, eu recomendaria o MUNIN, que fornece gráficos dos recursos mais comuns do sistema através da web, que você pode monitorar constantemente para ver qual processo/qual serviço sufoca os recursos e qual recurso.
Depois disso, eu recomendaria tail -f os arquivos de log do sistema, que causa esse problema.
Responder3
Às vezes sinto que o SAR é um pouco inadequado. Já me deparei com casos em que você precisa de uma visão completa do que está acontecendo em seu sistema. Comandos como top, ps, vmstat, netstat, iostat, iotop são úteis então. Geralmente eu registro as saídas desses comandos em um arquivo. Agora, se o espaço é uma restrição para você, existe um serviço chamadoSeaLion
que executa todos os comandos acima e os armazena na nuvem. Você pode acessar esses dados no seu navegador.
Também gostaria de mencionar outros serviços como Nagios
, Munin
, New Relic
, Server density
que também coleta estatísticas de sua máquina, que podem ser úteis durante a depuração de um problema.