
Eu tenho um problema com um sistema Debian. Hoje exatamente às 04:00 ele parou de responder ao nagios. Também não consigo fazer login via SSH. Não é a primeira vez que isso acontece, mas é a primeira vez que assisti com nagios.
Há uma coisa especial e incomum nesta caixa: ela inicializa a partir de um pendrive. É por isso que achei uma ideia inteligente mapear /var /tmp para um tmpfs.
Tenho quase certeza de que, se eu reiniciá-lo, ele funcionará novamente. Mas como /var/log está mapeado para a memória, não consigo ler os logs após a reinicialização.
O próximo problema é que o hardware está externo, então não consigo fazer login localmente.
A princípio, o problema pode ser que o tmpfs esteja enchendo. Mas o nagios não avisou antes de não conseguir mais se conectar. Eu configurei o limite de aviso para 90% de espaço livre. Então não parece ser isso.
Outros sintomas talvez interessantes:
- o servidor openVPN ainda está funcionando
- roteamento ainda funciona
- a porta SSH ainda está aberta e me é solicitado o nome de usuário. Mas se eu fornecer a senha, a conexão será interrompida
- a porta 80 está aberta, mas o apache não responde
A questão que mais me interessa é: O que um sistema Debian poderia fazer às 04:00 da manhã? Algum tipo de verificação de atualização?
Sou grato por quaisquer idéias ou indicações na direção certa. Existe algo que valha a pena monitorar com o nagios para obter uma dica? Da próxima vez adicionarei monitoramento do uso de swap.
Responder1
Tivemos isso em que o servidor ficou sem memória. Todos os processos em execução continuariam, mas a alocação de novos processos poderia falhar.
Se você estiver monitorando o uso da memória, isso poderá responder à pergunta. Você também pode tentar fazer login remotamente.
No entanto, para responder sua pergunta, verifique seu /etc/cron.daily - Esses scriptspoderiacorrer às 4 da manhã. Você também pode verificar /etc/cron.d/ e /etc/crontab para ver se há tarefas agendadas.