¿Cómo diagnosticar el congelamiento poco frecuente de una computadora en Linux?

¿Cómo diagnosticar el congelamiento poco frecuente de una computadora en Linux?

Durante los últimos meses he experimentado congelamientos poco frecuentes en mi computadora de escritorio. Si esto sucede, el contenido de la pantalla incl. El mouse está congelado, no puedo usar el teclado para reiniciar o cambiar a una consola virtual, y las secuencias SysRq no tienen ningún efecto; la única opción es un reinicio completo mediante el botón en el estuche.

Estoy usando principalmente Debian 11.6, solo ocasionalmente Windows 11 para jugar. Nunca he experimentado congelaciones mientras juego, pero eso puede deberse simplemente al poco tiempo que dedico a hacerlo.

Pistas inconsistentes:

  • Las heladas comenzaron a ocurrir durante el verano, cuando aquí hubo una ola de calor (> 40 °C). Así que pensé que era un problema de sobrecalentamiento y, de hecho, con el otoño y el invierno las heladas se produjeron con menos frecuencia, pero no se han detenido por completo. Solía ​​suceder cada 1 o 2 días, ahora sucede tal vez una vez por semana.

  • Los congelamientos ocurren a menudo mientras veo un video en pantalla completa y, a veces (pero no siempre), aparece un patrón de colores como si se hubieran escrito datos aleatorios en la memoria de video. Por eso pensé que podría ser un problema con la tarjeta de video. (Tengo instalado VDPAU, por lo tanto, los programas pueden usar decodificación de hardware). Sin embargo, también se producen congelaciones durante el uso normal del escritorio.

Diagnóstico:

  • Miré el registro del sistema después de reiniciar, pero no hay información relevante. Las últimas entradas suelen ser minutos antes y se relacionan con eventos estándar del sistema. Pero esto podría significar simplemente que los últimos mensajes se perdieron debido a la congelación.

  • He utilizado la prueba de carga de CPU basada dd if=/dev/zero of=/dev/nullenLa computadora se congela de manera irregular, con 7 trabajos paralelos (la CPU es de 4 núcleos con hyperthreading). htopmostró los 8 núcleos virtuales al 100 %, pero esto no provocó una congelación después de ~10 minutos.

  • Instalé ambos memtest86y memtest86+comencé la prueba de memoria desde el menú de inicio. Con ambas versiones, la computadora se congela después de aproximadamente un segundo, pero sin mostrar ningún mensaje de error. Vea a continuación las fotos de la pantalla.

    ¿Significa esto que tengo mala memoria? Pensé que en su lugar recibiría un mensaje de error. Además, a menudo manipulo archivos de datos de gran tamaño y nunca noté que los datos de los archivos estuvieran dañados. Ocasionalmente también realizo cálculos científicos que tienden a llenar la memoria principal, y tampoco experimenté nunca un congelamiento durante eso. (Sin embargo, regularmente he puesto el sistema de rodillas debido al intercambio excesivo).

La única forma que he encontrado de activar una congelación de manera consistente y rápida es la prueba de memoria.

Preguntas:

  • Si efectivamente se debe a una memoria defectuosa, ¿cómo puedo saber cuál de los cuatro módulos de memoria debo reemplazar? ¿O siempre debería reemplazarlos todos?

  • He leído en varias preguntas similares que los bloqueos pueden deberse a una fuente de alimentación defectuosa. Reemplacé mi fuente de alimentación hace aproximadamente un año y medio porque la anterior se estropeó. Originalmente tenía la intención de usar exactamente el mismo modelo, pero ya no se fabricaba, así que usé uno con especificaciones ligeramente superiores. Aproveché la oportunidad para limpiar a fondo el interior del estuche.

  • ¿Qué puedo hacer para diagnosticar mejor este problema desde el punto de vista del software? En particular, ¿cómo puedo conservar los mensajes de registro hasta el momento de congelarlos? Debian 11 utiliza el registro systemd. ¿Existe, por ejemplo, alguna forma de enviar mensajes a un servidor en lugar o adicionalmente?

Especificaciones del Sistema:

  • ASUSTeK COMPUTER INC. P8Z77-M Rev 1.xx con SMBIOS 2.7
  • American Megatrends Inc. BIOS versión 1806
  • ¡tranquilizarse! Recto Potencia 11 750W 750W ATX Negro
  • CPU Intel(R) Core(TM) i7-3770 a 3,40 GHz
  • 256 KiB de caché L1, 1 MiB de caché L2, 8 MiB de caché L3 (L3 parece estar deshabilitado, no tengo memoria de haber hecho eso)
  • Conjunto de chips Intel Corporation serie 7/C216
  • 4 módulos de 4 GB de Transcend JM1333KLN-8GK DIMM DDR3 síncrono 1333 MHz (0,8 ns)
  • NVIDIA Corporation GP106 [GeForce GTX 1060 6GB] (rev a1)
  • SAMSUNG SSD 830 Series y WDC WD60EFRX, ambos sin errores SMART

El ordenador tiene unos 10 años, así que no estaría mal tener que comprar uno nuevo. Mientras tanto, he realizado varias pequeñas actualizaciones (más memoria, CPU ligeramente mejor, mejor tarjeta de video), pero ninguna de ellas es tan reciente como para explicar los congelamientos.

Fotos de pantalla de la prueba de memoria después de la congelación:

Memtest86 Memtest86+

En la segunda pantalla, el "+" rojo continúa parpadeando después de congelarse, lo que indica que la tarjeta de video aún está funcionando.


Adiciones:

En respuesta al comentario de @Appleoddity, saqué los módulos de memoria. Están bien asentados en sus ranuras y, incluidos los contactos, están limpios. Cuando los reinserté me di cuenta de que a veces parecen insertados pero en realidad no están correctamente, se fijan con un fuerte empujón. Pero cuando eso sucede, no recibo errores de memoria, pero la computadora no arranca en absoluto.

En caso de que solo uno de los módulos tenga un defecto, los coloqué uno a la vez y ejecuté la prueba de memoria. Sin embargo, para cada módulo, todas las pruebas pasaron sin mensajes de error y sin congelaciones.

Luego los puse en parejas. No estoy seguro de haber completado las 6 combinaciones, pero en todas las combinaciones que probé, la computadora se congeló durante unos segundos en la prueba de memoria.

Finalmente, actualicé el BIOS de la placa base (a la última versión, 2203 del 18/12/2015), con la esperanza de que de alguna manera resuelva el problema o al menos proporcione mejores diagnósticos, pero sin éxito. yo también lo intentéreduciendola velocidad del reloj de la memoria en la configuración del BIOS, pero apareció el mensaje de error de que el "overclocking" no tuvo éxito.

¿Hay algo más que pueda probar? ¿Debería simplemente comprar módulos de memoria completamente nuevos?

información relacionada