Falha repentina do Ubuntu 16.04

Falha repentina do Ubuntu 16.04

Estou tendo problemas para depurar uma falha no sistema que estou enfrentando.

Sintomas:

Sem aviso, meus monitores ficam em branco e o sistema não responde a nenhuma entrada. O computador também não pode ser comunicado pela rede. Tanto o ping quanto o ssh não funcionam. Porém, o computador não está "desligado". Seus ventiladores ainda estão zumbindo e suas luzes ainda estão acesas. Já vi esse travamento acontecer desde algumas horas após a inicialização até alguns dias. Achei que o problema desapareceu após 6 dias consecutivos de atividade, mas depois travou novamente. Quando isso acontece, tenho que pressionar e segurar o botão liga / desliga para forçar uma reinicialização forçada. Então ele inicializa bem e parece que nada está errado (todos os sensores de temperatura também parecem bons). Além disso, o problema não parece depender da carga da CPU/GPU. Consigo executar processos intensos de CPU sem nenhum problema. Ele travou em alguns trabalhos noturnos, mas também travou nas noites em que o sistema estava ocioso.

Resumindo:

  • Tela em branco e sem resposta à entrada do teclado/mouse
  • Nenhuma resposta à entrada de rede ssh/ping.
  • Ventiladores e luzes LED ainda estão ligados e zumbindo. Manter pressionado o botão liga / desliga força uma reinicialização.
  • Já vi o tempo entre falhas variar de 2 horas a 144 horas. (com ~6-8 horas sendo o tempo médio).
  • Não parece depender da carga da CPU. A falha ocorre independentemente de o sistema estar processando ou ocioso.

Detalhes do sistema

  • O computador tem cerca de 7 anos.
  • Estou no Ubuntu 16.04.1 LTS de 64 bits (versão Gnome)
  • A CPU é Intel (R) Core (TM) i7-2600K CPU a 3,40 GHz
  • A GPU é antigaNVIDIA Corporation GT200b [GeForce GTX 285]
  • A fonte de alimentação é 500W OCZ500MXSP
  • 32 GB de memória (x4 8 GB HyperX)
  • Um SSD de 128 GB
  • 4 HDDs de 2 TB configurados em um software RAID10.

Saída de lspci

00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)

Etapas de depuração realizadas:

Configurei meu journalctl para ser persistente para que eu possa acessar os logs de inicializações anteriores. No entanto, examinando os logs, não consegui encontrar nada que pudesse apontar para um problema ou solução.

Quando vi o problema pela primeira vez, meu primeiro instinto foi a temperatura da CPU. Eu configurei um serviço do sistema para registrar a saída a sensorscada 5 segundos.

As últimas linhas disso estão aqui: https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8

Observe que a última linha está cheia de caracteres nulos. Presumo que o sistema travou no meio da gravação do arquivo.

Todas as temperaturas parecem estar dentro de faixas razoáveis. Um dos sensores CPUTIN: -60.0°Ctem um valor constante de -60, o que suponho que significa que o sensor não está funcionando. O mesmo parece ser verdade para alguns dos meus fãs. Então, talvez esteja acontecendo algo de temperatura que não consigo detectar?

Últimas linhas do syslog antes da última falha: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc

Está mostrando alarmes de sensores, mas nada parece (para mim) ter um valor fora do normal.

O sistema é antigo, então faz sentido que talvez um dos componentes de hardware esteja falhando. No entanto, não consigo descobrir qual é. A RAM foi atualizada recentemente (a falha estava acontecendo antes da atualização), então duvido que seja isso. Alguma idéia do que poderia ser/como posso descobrir?

informação relacionada