Ubuntu 20.04 が時々クラッシュする場合のヘルプ

Ubuntu 20.04 が時々クラッシュする場合のヘルプ

32 GB Kingston DDR3-1600 RAM、Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz、NVIDIA GeForce GTX 1660 SUPER GPU、mdadm ソフトウェア RAID 1 ミラーおよび LVM 内の 2 x Toshiba 3 TB HDD、スワップとして使用されている 32GB の 256 GB SSD 1 台を搭載した Shuttle XPC Cube SH87R で、Ubuntu 20.04 が時々クラッシュします。

私は最新の Nvidia 独自 Linux ドライバー 515.65.01 を DKMS とともに使用しており、システムは最新のアップデートで完全に更新されています。

複数の完全なパスを経て、広範囲にわたる memtest86+ メモリ テストを複数回実行しましたが、エラーは報告されませんでした。

クラッシュはまれにしか発生しません (おそらく 1 か月か 2 か月に 1 回)。問題を診断するために、カーネル ダンプを /var/crash に設定しました。ただし、クラッシュ情報の使用方法がわかりません。クラッシュ情報は次のとおりです。

ls -al /var/crash 
total 48 
drwxrwsrwt  3 root whoopsie  4096 Aug 25 22:26 . 
drwxr-xr-x 17 root root      4096 Nov  4  2021 .. 
drwxr-sr-x  2 root whoopsie  4096 Aug 25 22:24 202208252224
-rw-r--r--  1 root whoopsie   412 Aug 28 09:29 kexec_cmd
-rw-r-----  1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash

ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie       4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie       4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie      78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224

クラッシュ直前の dmesg ファイルの内容は次のとおりです。

[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3 
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check

ご提案をいただければ幸いです。


コメントへの返信:

現在の BIOS 設定で何年も 24 時間 365 日安定して動作しているので、誤った BIOS 設定が原因であるかどうかはわかりません。BIOS オプションはやや基本的なものです。CPU 電圧を変更できません。RAM 周波数を下げることはできますが、metest86+ ではエラーが表示されません。mce 例外はキャッシュ メモリ バンクまたは RAM を参照しているのでしょうか。キャッシュの場合は、CPU が疲れていると思います。結局のところ、これは 2013 年の PC であり、CMOS バッテリーの交換と mdadm によるミラー ディスクの交換のみでノンストップで動作しています。現在はマイクロコードか CPU 電圧のどちらかに原因があるのではないかと考えています。Nvidia 1660 を挿入したときに、元の 300W 電源を 500W に交換しました。これは最大 125W を使用し、CPU の定格は 84W です。古い電源を挿入して、CPU 電圧が現在の 1.0 値を超えて増加するかどうか試してみることができると思います。しかし、300W はおそらくわずかに限界ですが、GPU パワーが少ないテストではヒントになると思います。新しい 500W 電源は、まだ約 90 ドルで入手できます。

関連情報