Ubuntu 16.04 stürzt plötzlich ab

Ubuntu 16.04 stürzt plötzlich ab

Ich habe Probleme beim Debuggen eines Systemabsturzes, der bei mir auftritt.

Symptome:

Ohne Vorwarnung werden meine Monitore leer und das System reagiert auf keine Eingaben. Auch über das Netzwerk kann nicht mit dem Computer kommuniziert werden. Ping und SSH funktionieren nicht. Der Computer ist jedoch nicht „aus“. Seine Lüfter brummen noch und seine Lichter leuchten noch. Ich habe diesen Absturz schon einige Stunden nach dem Booten bis hin zu einigen Tagen erlebt. Ich dachte, das Problem wäre nach 6 aufeinanderfolgenden Tagen Betriebszeit behoben, aber dann stürzte er erneut ab. Wenn das passiert, muss ich den Einschaltknopf gedrückt halten, um einen Kaltstart zu erzwingen. Dann bootet er einwandfrei und es scheint, als wäre nichts falsch (die Temperatursensoren sehen auch alle gut aus). Darüber hinaus scheint das Problem nicht von der CPU-/GPU-Auslastung abzuhängen. Ich kann CPU-intensive Prozesse ohne Probleme ausführen. Er stürzte bei einigen nächtlichen Jobs ab, aber auch in Nächten, in denen das System einfach im Leerlauf war.

In Summe:

  • Leerer Bildschirm und keine Reaktion auf Tastatur-/Mauseingaben
  • Keine Reaktion auf SSH-/Ping-Netzwerkeingabe.
  • Lüfter und LED-Leuchten leuchten noch und summen. Das Gedrückthalten des Netzschalters erzwingt einen Neustart.
  • Ich habe Zeitspannen zwischen Abstürzen zwischen 2 und 144 Stunden gesehen (wobei die mittlere Zeitspanne bei ca. 6–8 Stunden liegt).
  • Scheint nicht von der CPU-Auslastung abhängig zu sein. Abstürze treten unabhängig davon auf, ob das System gerade verarbeitet wird oder im Leerlauf ist.

Systemdetails

  • Der Computer ist ca. 7 Jahre alt.
  • Ich verwende Ubuntu 16.04.1 LTS 64-Bit (Gnome-Version)
  • Die CPU ist Intel(R) Core(TM) i7-2600K CPU @ 3,40 GHz
  • Die GPU ist eine alteNVIDIA Corporation GT200b [GeForce GTX 285]
  • Netzteil ist 500W OCZ500MXSP
  • 32 GB Speicher (x4 8 GB HyperX)
  • Eine 128 GB SSD
  • 4 2-TB-Festplatten, konfiguriert in einem Software-RAID10.

Ausgabe von lspci

00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)

Durchgeführte Debugging-Schritte:

Ich habe mein Journalctl so eingerichtet, dass es dauerhaft ist, sodass ich auf Protokolle früherer Startvorgänge zugreifen kann. Beim Durchsehen der Protokolle konnte ich jedoch nichts finden, was auf ein Problem oder eine Lösung hinweisen könnte.

Als ich das Problem zum ersten Mal sah, war mein erster Instinkt die CPU-Temperatur. Ich richtete einen Systemdienst ein, um die Ausgabe sensorsalle 5 Sekunden zu protokollieren.

Die letzten Zeilen davon sind hier: https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8

Beachten Sie, dass die letzte Zeile voller Nullzeichen ist. Ich gehe davon aus, dass das System beim Schreiben in die Datei abgestürzt ist.

Die Temperaturen scheinen alle im akzeptablen Bereich zu liegen. Einer der Sensoren CPUTIN: -60.0°Chat einen konstanten Wert von -60, was vermutlich bedeutet, dass der Sensor nicht funktioniert. Dasselbe scheint für einige meiner Lüfter zu gelten. Vielleicht passiert also etwas mit der Temperatur, das ich nicht erkennen kann?

Letzte Zeilen des Syslogs vor dem letzten Absturz: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc

Es werden Sensoralarme angezeigt, aber nichts scheint (für mich) einen nicht normalen Wert zu haben.

Das System ist alt, daher ist es logisch, dass eine der Hardwarekomponenten ausfällt. Ich weiß jedoch nicht, welche es ist. Der RAM wurde vor Kurzem aktualisiert (der Absturz trat vor dem Upgrade auf), daher bezweifle ich, dass es daran liegt. Irgendwelche Ideen, was es sein könnte/wie ich es herausfinden könnte?

verwandte Informationen