Tengo fallos ocasionales en mi Ubuntu 20.04 en un Shuttle XPC Cube SH87R con 32 GB Kingston DDR3-1600 RAM, CPU Intel(R) Core(TM) i7-4770 a 3,40 GHz, NVIDIA GeForce GTX 1660 SUPER GPU, 2 x Toshiba 3 TB HDD en un espejo RAID 1 de software mdadm y LVM, un SSD de 256 GB con 32 GB utilizados como intercambio.
Utilizo el último controlador Linux propietario de Nvidia, 515.65.01 con DKMS, y el sistema está completamente actualizado con las últimas actualizaciones.
He ejecutado varias pruebas exhaustivas de memoria memtest86+ pasando por múltiples pases completos sin reportar errores.
El bloqueo ocurre con poca frecuencia, tal vez una vez al mes o dos, y para diagnosticar el problema he configurado volcados del kernel en /var/crash. Pero no estoy seguro de cómo utilizar la información sobre fallos, que es la siguiente.
ls -al /var/crash
total 48
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 .
drwxr-xr-x 17 root root 4096 Nov 4 2021 ..
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 202208252224
-rw-r--r-- 1 root whoopsie 412 Aug 28 09:29 kexec_cmd
-rw-r----- 1 root whoopsie 30651 Aug 25 22:26 linux-image-5.4.0-125-generic-202208252224.crash
ls -al /var/crash/whoopsie/
total 1315908
drwxr-sr-x 2 root whoopsie 4096 Aug 25 22:24 .
drwxrwsrwt 3 root whoopsie 4096 Aug 25 22:26 ..
-rw------- 1 root whoopsie 78133 Aug 25 22:24 dmesg.202208252224
-rw------- 1 root whoopsie 1347392784 Aug 25 22:24 dump.202208252224
El contenido del archivo dmesg justo antes del bloqueo es el siguiente:
[ 3528.253961] TCP: br0: Driver has suspect GRO implementation, TCP performance may be compromised.
[ 5154.707563] mce: [Hardware Error]: CPU 0: Machine Check Exception: 5 Bank 4: ba00000058000402
[ 5154.716109] mce: [Hardware Error]: RIP !INEXACT! 10:<ffffffffbc813ebc> {filemap_map_pages+0x2dc/0x380}
[ 5154.725475] mce: [Hardware Error]: TSC ff0bc5dd3d3
[ 5154.730364] mce: [Hardware Error]: PROCESSOR 0:306c3 TIME 1661458894 SOCKET 0 APIC 0 microcode 28
[ 5154.739238] mce: [Hardware Error]: Run the above through 'mcelog --ascii'
[ 5154.746078] mce: [Hardware Error]: Machine check: Processor context corrupt
[ 5154.753078] Kernel panic - not syncing: Fatal machine check
Se agradecerían sugerencias.
Respuesta a comentarios:
No estoy seguro de que la configuración incorrecta del BIOS sea la culpable, ya que ha estado funcionando de manera estable con la configuración actual del BIOS durante años, 24 horas al día, 7 días a la semana. Las opciones del BIOS son algo básicas. No puedo cambiar el voltaje de la CPU. Pude reducir la frecuencia de la RAM pero metest86+ no muestra errores. Me pregunto si la excepción mce se refiere a un banco de memoria caché o RAM. Si es caché, entonces supongo que la CPU se está cansando; después de todo, es una PC de 2013 que ha estado funcionando sin parar, solo cambiando la batería del CMOS y reemplazando los discos reflejados a través de mdadm. Actualmente me inclino por el microcódigo o el voltaje de la CPU. Reemplacé la fuente de alimentación original de 300 W por una de 500 W cuando instalé la Nvidia 1660, que usa 125 W como máximo y la CPU tiene una potencia nominal de 84 W. Supongo que podría experimentar para instalar la fuente de alimentación anterior y ver si el voltaje de la CPU aumenta por encima. valor actual de 1,0. Pero 300w es probablemente un poco marginal, pero supongo que para pruebas con poca potencia de GPU daría una pista. Todavía puedo conseguir un nuevo suministro de 500w por unos 90$.