Caída masiva e impredecible del rendimiento de E/S en Linux

Caída masiva e impredecible del rendimiento de E/S en Linux

Estoy usando pruebas de Debian sin ningún problema durante aproximadamente 6 años (solo lo actualizo periódicamente), pero recientemente comenzó a mostrar un comportamiento aleatorio que se puede resumir como "Bajo rendimiento de E/S que persiste hasta el reinicio".

El problema es que, de repente, todas las lecturas y escrituras del disco se ralentizan a ~5 MB/s, lo que da como resultado lecturas y escrituras continuas. Dado que la velocidad es tan baja, los discos no se esfuerzan ni se estresan mecánicamente, pero todo se ralentiza hasta que reinicio.

El subsistema de E/S de la computadora consta de un SSD OCZ Vertex 3 y dos discos duros WD Caviar Black. SSD contiene la parte del sistema operativo con mayor lectura y una partición en el HDD contiene el resto.

Para diagnosticar el problema intenté lo siguiente sin éxito:

  • topno muestra ninguna actividad descontrolada ni en el uso de CPU ni de E/S.
  • hdparmdevuelve calificaciones de rendimiento normales de los discos (aunque solo lo verifiqué -t).
  • smartctlno muestra ningún problema de rendimiento en los discos. Largas pruebas demostraron que los discos están como nuevos.

El sistema tiene un chipset Z77, 16 GB de RAM y una CPU Intel i7 3770K y las estadísticas no muestran signos de saturación en RAM, E/S o CPU, pero no tengo experiencia para depurar problemas como este (especialmente en el espacio del kernel). Cualquier ayuda será apreciada.

Actualización 1:

  • Ejecuté (forcé) fsck en cada partición como medida de precaución. Todos los FS están limpios.
  • Por cierto, encontré una actualización de BIOS que salió hace un mes y la apliqué.
  • Ninguna partición se llena más del 50%.

Actualización 2:

El problema no sale a la luz hasta dentro de dos días. O fsckla actualización del BIOS eliminó algunas obstrucciones en el sistema. Todavía estoy monitoreando el problema y cerraré la pregunta con una respuesta post mortem.

Actualización 3:

El problema simplemente resurgió e investigué un poco más. Por favor vea la respuesta.

Respuesta1

Logré reproducir el problema nuevamente y fue el resultado de un caché de disco grande. Las cachés de mi disco pueden crecer más de 8 GB y parece que a algunas aplicaciones no les gusta y la E/S se ve afectada.

Eliminar las cachés de disco echo 3 > /proc/sys/vm/drop_cachescomo raíz soluciona el problema. Actualmente no sé por qué los cachés de disco grandes causan esta degradación de E/S.

Última actualización:Después de investigar más, descubrí que la cantidad de archivos en el caché estaba desencadenando el problema. Estaba destrozando los discos mientras intentaba enviar muchos archivos pequeños al disco. Como estuve usando el sistema durante diez años, di el paso y lo reinstalé con Debian de 64 bits. Ahora está funcionando sin problemas. Probablemente fue un efecto secundario de diez años de actualización al encontrar los límites del sistema operativo de 32 bits.

Respuesta2

¿Hay algún mensaje sospechoso en dmesg?

Algunas herramientas más que podría probar para obtener información sobre los cuellos de botella de su sistema:

  • estadística
  • latenciaarriba
  • sistemaprofesional

información relacionada