LInux: Como faço para diagnosticar/isolar o que está causando travamentos "aleatórios" e reinicializações espontâneas?

LInux: Como faço para diagnosticar/isolar o que está causando travamentos "aleatórios" e reinicializações espontâneas?

Então, em vez de adivinhar qual é a causa (embora meu dinheiro esteja nos drivers da Nvidia), por onde começo a procurar alguns fatos?

Já passei por /var/log várias vezes, mas há MUITAS coisas lá e (ainda) não consigo identificar as partes importantes.


Antecedentes: A Versão Curta

Mudei do WinXP para o Ubuntu Karmic logo depois que ele foi disponibilizado.

Desde então tive uma série deaparentementefalhas aleatórias que se manifestam como:

  • uma reinicialização espontânea
  • um bloqueio completo com meu teclado e mouse USB parando de responder (até todos os LEDs apagados). Além disso, normalmente não conseguirei fazer ssh na caixa quando isso acontecer.

Pesquisei bastante e a Nvidia parece ser a principal suspeita, mas não tenho ideia de por onde começar a procurar para descobrir qual é a verdadeira causa.

Sugestões?



Antecedentes: A Versão Longa

Às vezes, posso passar uma semana inteira sem acidentes e depois ter 5 em 2 dias.

Motivado pelo desejo de eliminar possíveis suspeitos, fiz algumas alterações ao longo do tempo, sem sucesso:

  • Originalmente eu usava KVM para virtualização, agora uso VirtualBox OSE
  • Eu tinha o NFS rodando no kernel, mas agora uso o Samba
  • Eu estava usando o Compiz, mas desde então o desliguei
  • Passei do Karmic de 64 bits para 32 bits (por outros motivos também)
  • Eu tentei Ubuntu, Kubuntu e Xubuntu. O mesmo problema todas as vezes.
  • Rolei o driver Nvidia da versão 185 de volta para a versão 96 (NVIDIA Linux x86 Kernel Module 96.43.13 Qui, 25 de junho, 18:42:21 PDT 2009). Essepareceter reduzido a frequência de erros.


Em termos do que está sendo executado no momento, isso pode variar. Os itens a seguir são comuns, mas não estavam necessariamente em execução em todas as falhas:

  • Firefox 3.5
  • VirtualBox OSE com 1 ou 2 VMs do Windows XP
  • Skype
  • Rhythmbox ou Exaile


Meu hardware tem de 2 a 3 anos:

  • Core 2 Duo 6300
  • 4 GB de RAM
  • algum tipo de placa-mãe Intel daquela safra
  • uma placa de vídeo Asus dual-head com chipset Nvdia GeForce 7300 GS
  • 2 x HDDs SATA
  • monitores duplos (portanto, confio nos drivers proprietários da nvidia)


Tenho me mantido atualizado com as atualizações do meu sistema.

Esperamos que os dados acima possam levar alguém a sugerir um tipo específico de log ou configuração que valeria a pena investigar.

Atualizações
RAM parece boa.
Por sugestão abaixo, postarei novamente no superusuário

Responder1

Linux e outros sistemas semelhantes ao Unix são mais sensíveis à RAM escamosa do que o Windows. Eu executaria o memtest86 e verificaria a RAM

Responder2

Na verdade, esses problemas podem ser causados ​​​​por hardware defeituoso (se você suspeitar do driver da Nvidia, talvez a placa gráfica tenha um erro de hardware?)

  • se você tiver o monitoramento de temperatura ativado (com miniaplicativo de sensores / lm_sensors), há alguma leitura alta?
  • você fez algum overclock?
  • você também teve travamentos/travamentos/reinicializações estranhos no Windows?

Se o sistema travar, algumas coisas a serem verificadas:

  • os LEDs do teclado estão piscando? AFAIK que indicaria um Kernel Panic (ou seja, Kernel travou)
  • você pode acessar o sistema com Ping?
  • use a combinação de teclas SysRq (deve ser habilitada previamente) para ver se você consegue alguma resposta do sistema
    • verhttp://en.wikipedia.org/wiki/Magic_SysRq_keypara detalhes
    • você deve verificar se a chave está realmente habilitada e funcionando pressionando Alt+SysRq+h no terminal virtual (mudar para lá com Ctrl+Alt+F1; voltar com Ctrl+Alt+F7)
  • após a reinicialização, verifique os arquivos de log (/var/log/syslog, /var/log/Xorg.0.log) para obter as últimas mensagens

Responder3

Talvez seja um problema de hardware? Tenho experiência com placa de vídeo quebrada que travou o computador sem deixar rastros no log do kernel. Para isolar o problema experimente algum LiveCD que use composição, ou melhor ainda: jogue um jogo 3D ;-). Ver:postagem relacionada no fórum da UL

informação relacionada