Linux: Wie kann ich die Ursache für „zufälliges“ Hängenbleiben und spontane Neustarts diagnostizieren bzw. isolieren?

Linux: Wie kann ich die Ursache für „zufälliges“ Hängenbleiben und spontane Neustarts diagnostizieren bzw. isolieren?

Anstatt also einfach zu raten, was die Ursache ist (obwohl ich auf die Nvidia-Treiber setze), wo fange ich an zu suchen, um einige Fakten zu ermitteln?

Ich habe /var/log mehrmals durchgesehen, aber da ist eine MENGE Zeug drin und ich kann die wichtigen Teile (noch) nicht erkennen.


Hintergrund: Die Kurzfassung

Ich bin von WinXP zu Ubuntu Karmic gewechselt, gleich nachdem es verfügbar wurde.

Seitdem hatte ich eine Reihe vonscheinbarZufällige Abstürze, die sich wie folgt äußern:

  • ein spontaner Neustart
  • ein kompletter Systemabsturz, bei dem meine USB-Tastatur und -Maus nicht mehr reagieren (bis hin zum Ausschalten aller LEDs). Außerdem kann ich in diesem Fall normalerweise keine SSH-Verbindung zur Box herstellen.

Ich habe ausführlich gesucht und Nvidia scheint der Hauptverdächtige zu sein, aber ich habe keine Ahnung, wo ich mit der Suche beginnen soll, um die wahre Ursache herauszufinden.

Vorschläge?



Hintergrund: Die Langfassung

Manchmal komme ich eine ganze Woche ohne Zusammenbruch aus und dann wieder mit fünf in zwei Tagen.

Motiviert von dem Wunsch, mögliche Verdächtige auszuschließen, habe ich im Laufe der Zeit einige Änderungen vorgenommen, die jedoch keinen Erfolg hatten:

  • Ursprünglich habe ich KVM für die Virtualisierung verwendet, jetzt verwende ich VirtualBox OSE
  • Ich hatte NFS im Kernel laufen, verwende jetzt aber Samba
  • Ich habe Compiz verwendet, das aber inzwischen deaktiviert.
  • Ich bin von 64-Bit Karmic auf 32-Bit umgestiegen (auch aus anderen Gründen)
  • Ich habe Ubuntu, Kubuntu und Xubuntu ausprobiert. Jedes Mal das gleiche Problem.
  • Ich habe den Nvidia-Treiber von Version 185 auf Version 96 zurückgesetzt (NVIDIA Linux x86 Kernel Module 96.43.13 Thu Jun 25 18:42:21 PDT 2009). Diesscheintdie Fehlerhäufigkeit reduziert zu haben.


Was zu diesem Zeitpunkt ausgeführt wird, kann variieren. Folgendes ist üblich, wurde aber nicht unbedingt bei jedem Absturz ausgeführt:

  • Firefox 3.5
  • VirtualBox OSE mit 1 oder 2 Windows XP-VMs
  • Skype
  • Rhythmbox oder Exaile


Meine Hardware ist 2 - 3 Jahre alt:

  • Core 2 Duo 6300
  • 4 GB RAM
  • eine Art Intel-Motherboard dieses Jahrgangs
  • eine Asus Dual-Head Grafikkarte mit Nvdia GeForce 7300 GS Chipsatz
  • 2 x SATA-Festplatten
  • Dual-Monitore (daher verlasse ich mich auf die proprietären Nvidia-Treiber)


Ich habe meine Systemaktualisierungen auf dem neuesten Stand gehalten.

Wir hoffen, dass die obigen Daten jemanden dazu veranlassen, einen bestimmten Protokoll- oder Konfigurationstyp vorzuschlagen, dessen Untersuchung sinnvoll wäre.

Aktualisierung
RAM scheint in Ordnung zu sein
Per Vorschlag unten wird erneut auf Superuser gepostet

Antwort1

Linux und andere Unix-ähnliche Systeme reagieren empfindlicher auf fehlerhaften RAM als Windows. Ich würde memtest86 ausführen und den RAM überprüfen

Antwort2

Solche Probleme können tatsächlich durch fehlerhafte Hardware verursacht werden (wenn du den Nvidia-Treiber im Verdacht hast, liegt vielleicht ein Hardwarefehler bei der Grafikkarte vor?)

  • Wenn Sie die Temperaturüberwachung aktiviert haben (mit dem Sensor-Applet/lm_sensors), gibt es hohe Messwerte?
  • hast du übertaktet?
  • Gab es bei Ihnen auch unter Windows merkwürdige Abstürze/Hänger/Neustarts?

Wenn das System hängt, sollten Sie Folgendes überprüfen:

  • blinken die LEDs der Tastatur? Soweit ich weiß, deutet das auf einen Kernel Panic hin (d. h. Kernel ist abgestürzt)
  • kannst du das System mit Ping erreichen?
  • Verwenden Sie die Tastenkombination SysRq (muss vorher aktiviert werden), um zu sehen, ob Sie eine Antwort vom System erhalten
    • sehenhttp://en.wikipedia.org/wiki/Magic_SysRq_keyfür Details
    • Sie sollten überprüfen, ob die Taste wirklich aktiviert ist und funktioniert, indem Sie im virtuellen Terminal Alt+SysRq+h drücken (mit Strg+Alt+F1 dorthin wechseln; mit Strg+Alt+F7 zurückwechseln)
  • Überprüfen Sie nach dem Neustart die Protokolldateien (/var/log/syslog, /var/log/Xorg.0.log) auf die letzten Nachrichten

Antwort3

Vielleicht ist es ein Hardwareproblem? Ich habe Erfahrung mit einer kaputten Grafikkarte, die den Computer zum Absturz brachte, ohne Spuren im Kernel-Log zu hinterlassen. Um das Problem einzugrenzen, versuchen Sie es mit einer LiveCD, die Compositing verwendet, oder noch besser: spielen Sie ein 3D-Spiel ;-). Siehe:zugehöriger Beitrag im UL-Forum

verwandte Informationen