Ubuntu 16.04 突然クラッシュ

Ubuntu 16.04 突然クラッシュ

発生しているシステムクラッシュのデバッグに問題があります。

症状:

警告なしに、モニターが真っ暗になり、システムは入力に応答しません。コンピューターはネットワーク経由でも通信できません。ping と ssh はどちらも機能しません。ただし、コンピューターは「オフ」ではありません。ファンはまだブンブンと音を立て、ライトはまだ点灯しています。このクラッシュは、起動後数時間から数日後まで、どこでも発生するのを確認しました。6 日間連続して稼働した後、問題はなくなったと思いましたが、その後再びクラッシュしました。これが発生すると、電源ボタンを押し続けて強制的にハードリブートする必要があります。その後、正常に起動し、何も問題がないように見えます (温度センサーもすべて正常です)。さらに、問題は CPU / GPU の負荷に依存していないようです。CPU を集中的に使用するプロセスを問題なく実行できます。夜間のジョブでクラッシュしたことが数回ありましたが、システムがアイドル状態の夜間にもクラッシュしました。

要約すれば:

  • 画面が真っ白になり、キーボードやマウスの入力に反応しない
  • ssh / ping ネットワーク入力に応答がありません。
  • ファンと LED ライトはまだオンで、ブーンという音を立てています。電源ボタンを押し続けると強制的に再起動します。
  • クラッシュ間の時間は 2 時間から 144 時間の範囲でした (中央値は約 6 ~ 8 時間です)。
  • CPU 負荷に依存しないようです。システムが処理中かアイドル状態かに関係なくクラッシュが発生します。

システムの詳細

  • このコンピューターは約7年前のものです。
  • 私はUbuntu 16.04.1 LTS 64ビット(Gnomeバージョン)を使用しています
  • CPUはIntel(R) Core(TM) i7-2600K CPU @ 3.40GHzです。
  • GPUは古いNVIDIA Corporation GT200b [GeForce GTX 285]
  • 電源は500W OCZ500MXSP
  • 32 GB のメモリ (x4 8GB HyperX)
  • 128GB SSD
  • ソフトウェア RAID10 で構成された 4 台の 2TB HDD。

lspciの出力

00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:01.0 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:01.1 PCI bridge: Intel Corporation Xeon E3-1200/2nd Generation Core Processor Family PCI Express Root Port (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.1 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 2 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1c.4 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 5 (rev b5)
00:1c.6 PCI bridge: Intel Corporation 82801 PCI Bridge (rev b5)
00:1c.7 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 8 (rev b5)
00:1d.0 USB controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation P67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
02:00.0 VGA compatible controller: NVIDIA Corporation GT200b [GeForce GTX 285] (rev a1)
04:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
05:00.0 SATA controller: JMicron Technology Corp. JMB362 SATA Controller (rev 10)
06:00.0 USB controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
07:00.0 PCI bridge: ASMedia Technology Inc. ASM1083/1085 PCIe to PCI Bridge (rev 01)
08:03.0 FireWire (IEEE 1394): VIA Technologies, Inc. VT6306/7/8 [Fire II(M)] IEEE 1394 OHCI Controller (rev c0)
09:00.0 SATA controller: Marvell Technology Group Ltd. 88SE9172 SATA 6Gb/s Controller (rev 11)

実行されたデバッグ手順:

journalctl を永続的に設定して、以前のブートからのログにアクセスできるようにしました。ただし、ログを調べても、問題や解決策を示唆するものは何も見つかりませんでした。

初めてこの問題に気付いたとき、私の最初の直感は CPU 温度でした。5 秒ごとに出力を記録するシステム サービスを設定しましたsensors

その最後の数行は次のとおりです。 https://gist.github.com/Erotemic/590699faa04956078f0ecc13f74217d8

最後の行がヌル文字でいっぱいであることに注意してください。ファイルへの書き込みの途中でシステムがクラッシュしたと思われます。

温度はすべて妥当な範囲内のようです。センサーの 1 つCPUTIN: -60.0°Cが -60 という一定値を示していますが、これはセンサーが機能していないということでしょうか? ファンのいくつかでも同じことが起こっているようです。つまり、私が検出できない温度の問題が発生しているのでしょうか?

最新のクラッシュ前の syslog の最後の数行: https://gist.github.com/Erotemic/4288a98be973edd8ed20915178122fdc

センサーアラームが表示されていますが、(私には)異常な値があるようには見えません。

システムは古いので、ハードウェア コンポーネントの 1 つが故障していると考えられます。しかし、どのコンポーネントが故障しているのかわかりません。RAM は最近アップグレードされました (クラッシュはアップグレード前に発生していました) ので、それが原因ではないと思います。原因が何なのか、また、どうすればわかるのか、何かアイデアはありますか?

関連情報