У меня возникли проблемы с отладкой системного сбоя.
Симптомы:
Без предупреждения мои мониторы гаснут, и система не реагирует ни на какие команды. Компьютер также не может связаться по сети. Не работают ни ping, ни ssh. Однако компьютер не «выключен». Его вентиляторы все еще гудят, а индикаторы все еще горят. Я видел, как этот сбой происходил где угодно от нескольких часов после загрузки до нескольких дней. Я думал, что проблема исчезла после 6 последовательных дней безотказной работы, но затем он снова выходил из строя. Когда это происходит, мне приходится нажимать и удерживать кнопку питания, чтобы принудительно перезагрузить систему. Затем он нормально загружается, и кажется, что все в порядке (датчики температуры тоже все в порядке). Более того, проблема, похоже, не зависит от загрузки ЦП / ГП. Я могу запускать процессы, интенсивно использующие ЦП, без каких-либо проблем. Он выходил из строя во время нескольких ночных заданий, но он также выходил из строя ночью, когда система просто простаивала.
В итоге:
- Пустой экран и нет реакции на ввод с клавиатуры/мыши
- Нет ответа на сетевой ввод ssh / ping.
- Вентиляторы и светодиоды все еще включены и гудят. Удерживание кнопки питания приводит к принудительной перезагрузке.
- Я видел, как время между сбоями составляло от 2 до 144 часов (при этом медианное время составляло около 6-8 часов).
- Кажется, не зависит от загрузки ЦП. Сбой происходит независимо от того, обрабатывается система или простаивает.
Подробности системы
- Компьютеру около 7 лет.
- Я использую Ubuntu 16.04.1 LTS 64-bit (версия Gnome)
- Процессор — Intel(R) Core(TM) i7-2600K CPU @ 3.40GHz
- Графический процессор старый
NVIDIA Corporation GT200b [GeForce GTX 285]
- Блок питания OCZ500MXSP мощностью 500 Вт
- 32 ГБ памяти (x4 8 ГБ HyperX)
- SSD-накопитель на 128 ГБ
- 4 жестких диска по 2 ТБ, сконфигурированных в программный RAID10.
Вывод lspci
00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)
Предпринятые шаги по отладке:
Я настроил свой journalctl на сохранение, чтобы иметь доступ к журналам предыдущих загрузок. Однако, просматривая журналы, я не смог найти ничего, что могло бы указать на проблему или решение.
Когда я впервые увидел проблему, моей первой реакцией была температура процессора. Я настроил системную службу на запись выходных данных sensors
каждые 5 секунд.
Последние несколько строк здесь: https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8
Обратите внимание, что последняя строка заполнена нулевыми символами. Я предполагаю, что система рухнула в процессе записи в файл.
Все температуры, похоже, находятся в разумных пределах. Один из датчиков CPUTIN: -60.0°C
имеет постоянное значение -60, что, как я предполагаю, означает, что датчик не работает? То же самое, похоже, относится к нескольким моим вентиляторам. Так что, возможно, происходит что-то с температурой, что я не могу обнаружить?
Последние несколько строк системного журнала перед последним сбоем: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc
Он показывает сигналы тревоги датчиков, но (как мне кажется) ничего не имеет ненормальных значений.
Система старая, поэтому логично, что, возможно, один из аппаратных компонентов выходит из строя. Однако я не могу понять, какой именно. Недавно была обновлена оперативная память (сбой произошел до обновления), поэтому я сомневаюсь, что это она. Есть идеи, что это может быть / как я могу это выяснить?