Tenho travamentos ocasionais do meu Ubuntu 20.04 em um Shuttle XPC Cube SH87R com 32 GB Kingston DDR3-1600 RAM, CPU Intel(R) Core(TM) i7-4770 @ 3,40GHz, GPU NVIDIA GeForce GTX 1660 SUPER, 2 x Toshiba 3 TB HDD em um espelho RAID 1 de software mdadm e LVM, um SSD de 256 GB com 32 GB usado como swap.
Eu uso o driver Linux proprietário da Nvidia 515.65.01 mais recente com DKMS, e o sistema está totalmente atualizado com as atualizações mais recentes.
Executei vários testes extensos de memória memtest86 + passando por várias passagens completas sem erros relatados.
A falha acontece com pouca frequência - talvez uma vez por mês ou dois - e para diagnosticar o problema eu configurei dumps do Kernel para /var/crash. Mas não tenho certeza de como usar as informações de travamento, que são as seguintes.
ls -al /var/crash
total 48
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 .
drwxr-xr-x 17 root root 4096 Nov 4 2021 ..
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 202208252224
-rw-r--r-- 1 root whoopsie 412 Aug 28 09:29 kexec_cmd
-rw-r----- 1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash
ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie 78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224
O conteúdo do arquivo dmesg antes da falha é o seguinte:
[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check
Sugestões seriam apreciadas.
Resposta aos comentários:
Não tenho certeza se a configuração incorreta do BIOS é a culpada, já que ele está funcionando de forma estável com a configuração atual do BIOS há anos, 24 horas por dia, 7 dias por semana. As opções do BIOS são um tanto básicas. Não consigo alterar a voltagem da CPU. Eu poderia diminuir a frequência da RAM, mas metest86+ não mostra erros. Gostaria de saber se a exceção mce se refere a um banco de memória cache ou RAM? Se for cache, então acho que a CPU está ficando cansada - afinal é um PC de 2013 que está rodando sem parar, apenas trocando a bateria do cmos e substituindo os discos espelhados através do mdadm. Atualmente estou inclinado para microcódigo ou voltagem de CPU. Eu substituí a fonte de alimentação original de 300 W por uma de 500 W quando instalei a Nvidia 1660, que usa 125 W no máximo e a CPU tem classificação de 84 W. Acho que poderia experimentar colocar a fonte de alimentação antiga e ver se a tensão da CPU aumenta acima valor atual de 1,0. Mas 300 W é provavelmente um pouco marginal, mas para testes com pouca potência de GPU isso daria uma dica, eu acho. Ainda posso conseguir uma nova fonte de 500 W por cerca de 90 $.