현재 발생한 시스템 충돌을 디버깅하는 데 문제가 있습니다.
증상:
경고 없이 모니터가 공백으로 바뀌고 시스템이 어떤 입력에도 응답하지 않습니다. 컴퓨터는 네트워크를 통해서도 통신할 수 없습니다. ping과 ssh가 모두 작동하지 않습니다. 그러나 컴퓨터가 "꺼진" 것은 아닙니다. 팬은 여전히 윙윙거리고 있고 조명도 여전히 켜져 있습니다. 부팅 후 몇 시간부터 며칠까지 이러한 충돌이 발생하는 것을 보았습니다. 6일 연속 가동 후 문제가 사라졌지만 다시 충돌이 발생했습니다. 이런 일이 발생하면 전원 버튼을 길게 눌러 강제로 재부팅해야 합니다. 그런 다음 제대로 부팅되고 아무 문제도 없는 것 같습니다(온도 센서도 모두 괜찮아 보입니다). 게다가 이 문제는 CPU/GPU 부하에 의존하지 않는 것 같습니다. CPU 집약적인 프로세스를 문제 없이 실행할 수 있습니다. 몇몇 야간 작업에서 충돌이 발생했지만 시스템이 유휴 상태였던 밤에도 충돌이 발생했습니다.
요약하자면:
- 빈 화면이 나타나고 키보드/마우스 입력에 응답이 없습니다.
- SSH/Ping 네트워크 입력에 응답이 없습니다.
- 팬과 LED 표시등이 여전히 켜져 있고 윙윙거리고 있습니다. 전원 버튼을 길게 누르면 강제 재부팅됩니다.
- 나는 충돌 사이의 시간이 2시간에서 144시간 사이인 것을 보았습니다. (평균 시간은 ~6-8시간입니다).
- CPU 로드에 의존하지 않는 것 같습니다. 시스템이 처리 중인지 유휴 상태인지에 관계없이 충돌이 발생합니다.
시스템 세부정보
- 컴퓨터는 7년 정도 됐어요.
- 저는 Ubuntu 16.04.1 LTS 64비트(Gnome 버전)를 사용하고 있습니다.
- CPU는 Intel(R) Core(TM) i7-2600K CPU @ 3.40GHz입니다.
- GPU가 낡았네요
NVIDIA Corporation GT200b [GeForce GTX 285]
- PSU는 500W OCZ500MXSP입니다.
- 32GB 메모리(x4 8GB HyperX)
- 128GB SSD
- 소프트웨어 RAID10으로 구성된 2TB HDD 4개.
lspci의 출력
00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)
수행된 디버깅 단계:
이전 부팅에서 로그에 액세스할 수 있도록 Journalctl을 지속적으로 설정했습니다. 그러나 로그를 살펴보니 문제나 해결책을 가리킬 수 있는 내용을 찾을 수 없었습니다.
이 문제를 처음 봤을 때 가장 먼저 직감한 것은 CPU 온도였습니다. 5초마다 출력을 기록하도록 시스템 서비스를 설정했습니다 sensors
.
마지막 몇 줄은 다음과 같습니다. https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8
마지막 줄은 null 문자로 가득 차 있습니다. 파일에 쓰는 도중에 시스템이 충돌한 것으로 추정됩니다.
온도는 모두 합리적인 범위 내에 있는 것 같습니다. 센서 중 하나의 CPUTIN: -60.0°C
상수 값이 -60인데, 이는 센서가 작동하지 않는다는 의미인 것 같습니다. 몇몇 팬들도 마찬가지인 것 같아요. 그렇다면 제가 감지할 수 없는 온도 문제가 발생하고 있는 것일까요?
최근 충돌 이전의 syslog의 마지막 몇 줄: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc
센서 알람이 표시되지만 (내 생각에는) 비정상 값이 있는 것 같지 않습니다.
시스템이 오래되었으므로 하드웨어 구성 요소 중 하나에 오류가 발생했을 수도 있습니다. 그러나 나는 그것이 어느 것인지 파악하기가 어렵습니다. RAM이 최근에 업그레이드되었으므로(업그레이드 전에 충돌이 발생했습니다) 그런 것인지 의심스럽습니다. 그것이 무엇일 수 있는지/어떻게 알 수 있는지에 대한 아이디어가 있나요?