Falha no servidor Ubuntu 10.04

Falha no servidor Ubuntu 10.04

Estou executando um Ubuntu 10.04 (x64) como um servidor web/mysql.

O servidor parou de responder a SSH, Ping, HTTP etc. e o técnico com acesso físico à máquina me enviou esta captura de tela aqui:

http://img442.imageshack.us/img442/389/img00062201012211332.jpg

do monitor conectado antes de reiniciar (e a situação está corrigida). Não tenho certeza em qual log essas informações são mantidas, pois não consigo encontrar o texto depois de verificar os logs após a reinicialização.

Alguém pode me ajudar a investigar o que aconteceu para tentar garantir que isso não aconteça novamente?

Obrigado

Responder1

O kernel panic pode vir de vários motivos, geralmente um problema de módulo (um driver que não se adapta ao seu hardware) ou um problema de hardware.

No seu caso, se o problema não for repetível, é mais provável que seja de origem de hardware.
E pode ser a memória (memória ruim nem sempre é fácil de identificar).

Eu inicializaria o servidor - e escolheria durante a tela do grub (logo após a inicialização) a opção "memtest86". O teste de memória precisa ser executado continuamente por vários dias.
Se após 3 dias não houver erro, a memória étalvezOK.

Responder2

Se você não tiver outras informações (como disse ring0, elas não serão salvas em algum lugar do disco), não há mais nada que você possa fazer.

Se você quiser ser proativo, ou se isso acontecer aleatoriamente mais algumas vezes, você pode tentar o LKCD para capturar um dump principal. http://lkcd.sourceforge.net/

Não sei quanta RAM você tem, mas até mesmo tentar o memtest86 por algumas horas pode ser benéfico. Obviamente, não detectará erros realmente raros.

Também sugiro que você adicione kernel.panic=5 /etc/sysctl.conf. Isso fará com que o servidor seja reinicializado automaticamente após 5 segundos se o kernel travar novamente.

Finalmente, acho que você deve sempre ter algum tipo de gerenciamento de luzes apagadas. Então você pode fazer login, copiar a mensagem e reiniciar o servidor você mesmo.

Responder3

Já vi essas falhas quando os servidores funcionavam com carga muito alta/muitos processos durante um período prolongado de tempo. Para verificar de forma geral o que está acontecendo em sua máquina, recomendo instalar um framework de monitoramento como o munin em seu servidor - que ajudará na análise caso isso aconteça novamente.

Responder4

Isso pode parecer um pouco estranho, mas tive problemas com o Ubuntu x64 rodando em um servidor que era de 64 bits. Eu tive esses mesmos erros e problemas subsequentes de "congelamento" com muita frequência. Ele tentou remover drivers, adicionar drivers novamente, passou horas procurando bugs e nada ajudou. Finalmente resolvi o problema instalando uma versão de 32 bits do Ubuntu. Funcionou, não precisei de 64 bits, então deixei rolar. Esta não é uma boa solução se você precisar de 64 bits, mas pode lhe dar um caminho para explorar um pouco. Talvez procure o servidor em que você está executando o Ubuntu e veja se há problemas de compatibilidade conhecidos. Boa sorte.

informação relacionada