Ajuda sobre falhas ocasionais do Ubuntu 20.04

Ajuda sobre falhas ocasionais do Ubuntu 20.04

Tenho travamentos ocasionais do meu Ubuntu 20.04 em um Shuttle XPC Cube SH87R com 32 GB Kingston DDR3-1600 RAM, CPU Intel(R) Core(TM) i7-4770 @ 3,40GHz, GPU NVIDIA GeForce GTX 1660 SUPER, 2 x Toshiba 3 TB HDD em um espelho RAID 1 de software mdadm e LVM, um SSD de 256 GB com 32 GB usado como swap.

Eu uso o driver Linux proprietário da Nvidia 515.65.01 mais recente com DKMS, e o sistema está totalmente atualizado com as atualizações mais recentes.

Executei vários testes extensos de memória memtest86 + passando por várias passagens completas sem erros relatados.

A falha acontece com pouca frequência - talvez uma vez por mês ou dois - e para diagnosticar o problema eu configurei dumps do Kernel para /var/crash. Mas não tenho certeza de como usar as informações de travamento, que são as seguintes.

ls -al /var/crash 
total 48 
drwxrwsrwt  3 root whoopsie  4096 Aug 25 22:26 . 
drwxr-xr-x 17 root root      4096 Nov  4  2021 .. 
drwxr-sr-x  2 root whoopsie  4096 Aug 25 22:24 202208252224
-rw-r--r--  1 root whoopsie   412 Aug 28 09:29 kexec_cmd
-rw-r-----  1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash

ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie       4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie       4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie      78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224

O conteúdo do arquivo dmesg antes da falha é o seguinte:

[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3 
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check

Sugestões seriam apreciadas.


Resposta aos comentários:

Não tenho certeza se a configuração incorreta do BIOS é a culpada, já que ele está funcionando de forma estável com a configuração atual do BIOS há anos, 24 horas por dia, 7 dias por semana. As opções do BIOS são um tanto básicas. Não consigo alterar a voltagem da CPU. Eu poderia diminuir a frequência da RAM, mas metest86+ não mostra erros. Gostaria de saber se a exceção mce se refere a um banco de memória cache ou RAM? Se for cache, então acho que a CPU está ficando cansada - afinal é um PC de 2013 que está rodando sem parar, apenas trocando a bateria do cmos e substituindo os discos espelhados através do mdadm. Atualmente estou inclinado para microcódigo ou voltagem de CPU. Eu substituí a fonte de alimentação original de 300 W por uma de 500 W quando instalei a Nvidia 1660, que usa 125 W no máximo e a CPU tem classificação de 84 W. Acho que poderia experimentar colocar a fonte de alimentação antiga e ver se a tensão da CPU aumenta acima valor atual de 1,0. Mas 300 W é provavelmente um pouco marginal, mas para testes com pouca potência de GPU isso daria uma dica, eu acho. Ainda posso conseguir uma nova fonte de 500 W por cerca de 90 $.

informação relacionada