가끔 Ubuntu 20.04 충돌에 관한 도움말

가끔 Ubuntu 20.04 충돌에 관한 도움말

32GB Kingston DDR3-1600 RAM, Intel(R) Core(TM) i7-4770 CPU @ 3.40GHz, NVIDIA GeForce GTX 1660 SUPER GPU, 2 x Toshiba 3을 탑재한 Shuttle XPC Cube SH87R에서 Ubuntu 20.04가 가끔 충돌합니다. mdadm 소프트웨어 RAID 1 미러 및 LVM의 TB HDD, 스왑으로 사용되는 32GB의 256GB SSD 1개.

저는 DKMS와 함께 최신 Nvidia 독점 Linux 드라이버 515.65.01을 사용하며, 최신 업데이트로 완전히 업데이트된 경우 시스템을 사용합니다.

오류가 보고되지 않고 여러 번의 전체 패스를 통해 광범위한 memtest86+ 메모리 테스트를 여러 번 실행했습니다.

충돌은 드물게 발생합니다(아마도 한두 달에 한 번 정도). 문제를 진단하기 위해 커널 덤프를 /var/crash에 설정했습니다. 그런데 충돌 정보를 어떻게 활용해야 할지 잘 모르겠는데, 그 내용은 다음과 같습니다.

ls -al /var/crash 
total 48 
drwxrwsrwt  3 root whoopsie  4096 Aug 25 22:26 . 
drwxr-xr-x 17 root root      4096 Nov  4  2021 .. 
drwxr-sr-x  2 root whoopsie  4096 Aug 25 22:24 202208252224
-rw-r--r--  1 root whoopsie   412 Aug 28 09:29 kexec_cmd
-rw-r-----  1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash

ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie       4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie       4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie      78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224

충돌 직전 dmesg 파일의 내용은 다음과 같습니다.

[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3 
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check

제안해 주시면 감사하겠습니다.


의견에 대한 응답:

잘못된 BIOS 설정이 원인인지는 잘 모르겠습니다. 현재의 BIOS 설정으로 수년 동안 연중무휴로 안정적으로 실행되어 왔기 때문입니다. BIOS 옵션은 다소 기본적입니다. CPU 전압을 변경할 수 없습니다. RAM 주파수를 낮출 수 있지만 metest86+에서는 오류가 표시되지 않습니다. mce 예외가 캐시 메모리 뱅크를 참조하는지 아니면 RAM을 참조하는지 궁금합니다. 캐시라면 CPU가 지쳐가고 있는 것 같습니다. 결국 cmos 배터리만 교체하고 mdadm을 통해 미러 디스크만 교체하면서 쉬지 않고 실행되고 있는 2013년 PC입니다. 저는 현재 마이크로코드나 CPU 전압 쪽으로 기울고 있습니다. 최대 125W를 사용하고 CPU 정격은 84W인 Nvidia 1660을 장착할 때 원래 300w 전원 공급 장치를 500w로 교체했습니다. 기존 전원 공급 장치를 넣고 CPU 전압이 이상으로 증가하는지 실험해 볼 수 있을 것 같습니다. 현재 1.0 값. 그러나 300w는 아마도 약간 미미할 수 있지만 GPU 성능이 거의 없는 테스트에서는 힌트를 줄 수 있을 것 같습니다. 약 90$에 새로운 500w 공급품을 구입할 수 있습니다.

관련 정보