Diagnóstico de falha do servidor...Existe algum programa estilo 'gravador de caixa preta' disponível

Diagnóstico de falha do servidor...Existe algum programa estilo 'gravador de caixa preta' disponível

Meu servidor redhat está travando a cada três semanas ou mais às 4h15 da manhã de domingo. (bem, foram domingos, os dois últimos foram quintas de manhã às 4h15). Olhando para os logs (mysql, httpd, mensagens), não há pistas do porquê. Eles simplesmente parecem parar.

Executei um pequeno script para fazer leituras de memória a cada 15 minutos e ele também para (com leituras normais) neste momento.

O servidor é remoto em um provedor, então só posso acessá-lo pela web. Eu uso o Plesk.

Parece ser um trabalho definido ou algo que está causando o problema. Não consigo ver nada no crontab.

Então, minha pergunta é... alguém já passou por isso e pode dar conselhos? Falhando naquilo.

Alguém conhece uma maneira de obter registros mais detalhados do que o oferecido pelo arquivo de mensagens? Eu estava pensando em um programa de gravação estilo caixa preta ou talvez algo tão simples como uma opção em algum lugar para aumentar o nível de relatórios no log de mensagens.

Obrigado

Responder1

este é o horário em que os trabalhos do cron.daily são agendados, então eu procuraria em /etc/cron.daily ou semanalmente ou mensalmente como os primeiros suspeitos

você pode instalar em cima que registrará instantâneos dos processos a cada 10 minutos

alternativamente você pode instalar o psacct e usar accton e lastcomm para ver o que estava sendo executado

ativar a auditoria também é uma opção, consulte auditd(8)

Responder2

Você pode habilitar core dumps, que copiarão a memória do sistema para um arquivo quando um servidor travar.

O próximo problema é o que fazer com o arquivo coredump... Se você tem alguém por perto que sabe tudo sobre gdb, ele pode fazer algo a respeito... ou você pode usar o comando "strings" para despejar tudo do texto do arquivo coredump e talvez você consiga encontrar algo.

Responder3

faça login em uma caixa diferente que esteja bem conectada, execute screen, ssh no servidor e siga kern.log, daemon.log, syslog, mensagens em janelas de tela individuais. (control-A, c para criar uma nova janela, Control-A,D para desanexar, screen -r para continuar)

quando o servidor travar novamente, você deverá ter o final dos logs em sua sessão de tela, mesmo que eles não tenham sido descarregados no disco corretamente quando a máquina travar.

Se você suspeitar de kernel panic ou oops

kernel.panic=5 kernel.panic_on_oops=5

em seu sysctl.conf ou arquivo equivalente aguardará 5 segundos, possivelmente permitindo que as unidades sejam descarregadas, e então será reinicializado.

informação relacionada