LInux: ¿Cómo diagnostico/aislo lo que causa bloqueos "aleatorios" y reinicios espontáneos?

LInux: ¿Cómo diagnostico/aislo lo que causa bloqueos "aleatorios" y reinicios espontáneos?

Entonces, en lugar de adivinar cuál es la causa (aunque mi dinero está en los controladores de nvidia), ¿por dónde empiezo a buscar para precisar algunos hechos?

He revisado /var/log en varias ocasiones pero hay MUCHAS cosas ahí y (todavía) no puedo detectar las partes importantes.


Antecedentes: la versión corta

Pasé de WinXP a Ubuntu Karmic justo después de que estuvo disponible.

Desde entonces he tenido una serie deaparentementefallos aleatorios que se manifiestan como:

  • un reinicio espontáneo
  • un bloqueo completo con mi teclado y mouse USB que dejan de responder (hasta que todos los LED se apagan). Además, normalmente no podré acceder al cuadro mediante ssh cuando esto suceda.

He buscado mucho y Nvidia parece ser el principal sospechoso, pero no tengo idea de por dónde empezar a buscar para descubrir cuál es la verdadera causa.

¿Sugerencias?



Antecedentes: la versión larga

A veces, puedo pasar una semana entera sin sufrir un accidente y luego tener 5 en 2 días.

Motivado por el deseo de eliminar posibles sospechosos, he realizado algunos cambios a lo largo del tiempo sin éxito:

  • Originalmente usaba KVM para virtualización, ahora uso VirtualBox OSE
  • Tenía NFS ejecutándose en el kernel pero ahora uso Samba
  • Estaba usando Compiz pero desde entonces lo desactivé.
  • Pasé de Karmic de 64 bits a 32 bits (también por otras razones)
  • Probé Ubuntu, Kubuntu y Xubuntu. El mismo problema cada vez.
  • Actualicé el controlador Nvidia de la versión 185 a la versión 96 (NVIDIA Linux x86 Kernel Module 96.43.13 jueves 25 de junio a las 18:42:21 PDT de 2009). Esteparecehaber reducido la frecuencia de los errores.


En términos de lo que se está ejecutando en ese momento, esto puede variar. Los siguientes son comunes, pero no necesariamente se ejecutan en cada falla:

  • Firefox 3.5
  • VirtualBox OSE con 1 o 2 máquinas virtuales con Windows XP
  • Skype
  • Rhythmbox o Exaile


Mi hardware tiene entre 2 y 3 años:

  • Núcleo 2 Dúo 6300
  • 4 GB de RAM
  • algún tipo de placa base Intel de esa época
  • una tarjeta de video Asus de doble cabezal con chipset Nvdia GeForce 7300 GS
  • 2 discos duros SATA
  • monitores duales (por eso confío en los controladores propietarios de nvidia)


Me he mantenido actualizado con las actualizaciones de mi sistema.

Con suerte, los datos anteriores podrían incitar a alguien a sugerir un tipo específico de registro o configuración que valdría la pena investigar.

Actualizaciones
La RAM parece estar bien.
Según la sugerencia a continuación, se volverá a publicar en el superusuario.

Respuesta1

Linux y otros sistemas similares a Unix son más sensibles a la RAM defectuosa que Windows. Ejecutaría memtest86 y verificaría la RAM.

Respuesta2

De hecho, estos problemas pueden deberse a un hardware defectuoso (si sospecha del controlador nvidia, ¿quizás la tarjeta gráfica tenga un error de hardware?)

  • Si tiene habilitado el monitoreo de temperatura (con sensors-applet/lm_sensors), ¿hay lecturas altas?
  • ¿Hiciste algún overclocking?
  • ¿Tuviste también fallos, bloqueos o reinicios extraños en Windows?

Si el sistema se bloquea, hay que comprobar algunas cosas:

  • ¿Están parpadeando los LED del teclado? AFAIK eso indicaría un Kernel Panic (es decir, Kernel falló)
  • ¿Puedes acceder al sistema con Ping?
  • use la combinación de teclas SysRq (debe estar habilitada de antemano) para ver si puede obtener alguna respuesta del sistema
    • verhttp://en.wikipedia.org/wiki/Magic_SysRq_keypara detalles
    • debe verificar que la tecla esté realmente habilitada y funcionando presionando Alt+SysRq+h en el terminal virtual (cambie allí con Ctrl+Alt+F1; regrese con Ctrl+Alt+F7)
  • después de reiniciar, verifique los archivos de registro (/var/log/syslog, /var/log/Xorg.0.log) para ver los últimos mensajes

Respuesta3

¿Quizás sea un problema de hardware? Tengo experiencia con una tarjeta de video rota que colgó la computadora sin dejar ningún rastro en el registro del kernel. Para aislar el problema prueba algún LiveCD que utilice composición, o mejor aún: juega un juego 3D ;-). Ver:publicación relacionada en el foro de UL

información relacionada