
Temos vários servidores LAMP, cada um executando um script especial que escrevemos para relatar várias métricas do sistema. O relatório é executado diariamente e a ideia é poder fazer uma análise rápida e identificar possíveis problemas no sistema.
Cada servidor LAMP executa o RedHat Enterprise e hospeda de 40 a 50 (e cada vez mais) sites públicos cada (uma mistura de sites HTML, PHP personalizados e Drupal).
Aqui está o que o script inclui atualmente:
- Carga do servidor e usuários logados
- Últimos 10 logins e horários
- Uso de disco
- Últimas 10 linhas de vários logs (qmail, mysql, secure, apache error, package)
- nome de usuário, porta e último horário de login para cada conta
- despejo superior
O relatório já é longo, por isso estou interessado na brevidade tanto quanto possível.
Você achou outras métricas importantes para incluir nesse script? Você retiraria algum desta lista?
Obrigado, equipe.
j
Responder1
Eu testaria para ter certeza de que seu ambiente está são. Teste se o PHP está sendo executado corretamente (escreva um script PHP simples que faça eco de algo, faça wget, certifique-se de receber o que esperava), seu banco de dados (apenas conecte-se e certifique-se de ver os bancos de dados), etc.
Além disso, se você estiver usando SSL neles, verifique se há expiração do certificado, alterações inesperadas, etc.
Responder2
Eu recomendaria usar uma ferramenta de coleta automatizada, comoCactosque irá coletar e relatar várias métricas ao longo do tempo. Isso permitirá que você identifique facilmente tendências e planeje o futuro. Existe um excelente livro de John Allspaw chamadoA arte do planejamento de capacidadeque aborda este tópico em grande detalhe. Eu recomendo isso para quem precisa rastrear métricas em servidores.
Responder3
Meu conselho seria não relatar nenhuma dessas coisas rotineiramente. Você será inundado de informações e a natureza humana dita que, quando surgir um problema, você poderá de fato ignorá-lo.
Em vez disso, reporte apenas quando uma dessas variáveis for anormal. Talvez com ainda mais frequência durante o dia. Você pode usar um sistema de monitoramento e gráficos como o Cacti, que irá alertá-lo sobre tais mudanças e manter dados históricos para referência futura.
Responder4
Você realmente deseja ter monitoramento constante. Usamos o Nagios para verificar cada um de nossos servidores web várias vezes por minuto para ter certeza de que ainda estão funcionando. Também monitoramos nossos bancos de dados e qualquer outra coisa que possamos imaginar. Com o tempo, você terá interrupções e descobrirá coisas que deveria ter monitorado.
O outro lado do monitoramento é uma espécie de gráfico. Usamos Munin, mas cactos ou gânglios são soluções comuns. Os gráficos são inestimáveis para detectar tendências em seu sistema.