Bloqueo repentino de Ubuntu 16.04

Bloqueo repentino de Ubuntu 16.04

Tengo problemas para depurar una falla del sistema que estoy experimentando.

Síntomas:

Sin previo aviso, mis monitores se ponen en blanco y el sistema no responde a ninguna entrada. Tampoco se puede comunicar con la computadora a través de la red. Tanto ping como ssh no funcionan. Sin embargo, la computadora no está "apagada". Sus ventiladores siguen tarareando y sus luces siguen encendidas. He visto que este bloqueo ocurre desde unas pocas horas después del arranque hasta unos días. Pensé que el problema desapareció después de 6 días consecutivos de funcionamiento, pero luego volvió a fallar. Cuando esto sucede, tengo que mantener presionado el botón de encendido para forzar un reinicio completo. Luego arranca bien y parece que no pasa nada (todos los sensores de temperatura también se ven bien). Además, el problema no parece depender de la carga de CPU/GPU. Puedo ejecutar procesos intensivos de CPU sin ningún problema. Falló en algunos trabajos nocturnos, pero también falló en las noches cuando el sistema estaba simplemente inactivo.

En resumen:

  • Pantalla en blanco y sin respuesta a la entrada del teclado/ratón
  • No hay respuesta a la entrada de red ssh/ping.
  • Los ventiladores y las luces LED siguen encendidos y zumbando. Mantener presionado el botón de encendido fuerza un reinicio.
  • He visto que el tiempo entre accidentes oscila entre 2 y 144 horas. (siendo ~6-8 horas el tiempo medio).
  • No parece depender de la carga de la CPU. El bloqueo ocurre independientemente de si el sistema está procesando o inactivo.

Detalles del sistema

  • La computadora tiene unos 7 años.
  • Estoy en Ubuntu 16.04.1 LTS de 64 bits (versión Gnome)
  • La CPU es Intel(R) Core(TM) i7-2600K @ 3,40GHz
  • La GPU es vieja.NVIDIA Corporation GT200b [GeForce GTX 285]
  • La fuente de alimentación es 500W OCZ500MXSP
  • 32 GB de memoria (x4 HyperX de 8 GB)
  • Un disco SSD de 128 GB
  • 4 HDD de 2TB configurados en un software RAID10.

Salida de lspci

00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)

Pasos de depuración tomados:

Configuré mi journalctl para que sea persistente y pueda acceder a los registros de arranques anteriores. Sin embargo, al revisar los registros no pude encontrar nada que pudiera indicar un problema o una solución.

Cuando vi el problema por primera vez, mi primer instinto fue la temperatura de la CPU. Configuré un servicio del sistema para registrar la salida sensorscada 5 segundos.

Las últimas líneas de eso están aquí: https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8

Tenga en cuenta que la última línea está llena de caracteres nulos. Supongo que el sistema falló mientras escribía el archivo.

Todas las temperaturas parecen estar dentro de rangos razonables. Uno de los sensores CPUTIN: -60.0°Ctiene un valor constante de -60, lo que supongo significa que el sensor no está funcionando. Lo mismo parece ser cierto para algunos de mis fans. Entonces, ¿tal vez está sucediendo un problema de temperatura que no puedo detectar?

Últimas líneas de syslog antes del último fallo: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc

Muestra alarmas de sensores, pero nada me parece (a mí) tener un valor anormal.

El sistema es antiguo, por lo que tiene sentido que tal vez uno de los componentes del hardware esté fallando. Sin embargo, no sé cuál es. La RAM se actualizó recientemente (el bloqueo ocurrió antes de la actualización), así que dudo que sea eso. ¿Alguna idea sobre lo que podría ser o cómo podría averiguarlo?

información relacionada