Es realmente simple: este servidor tiene un SSD para el disco principal y una matriz RAID (mdadm) para almacenamiento.
De manera intermitente, tiene problemas para escribir en la matriz: las velocidades de escritura disminuyen hasta el punto en que realmente no es tan utilizable.
Acabo de terminar de probar la velocidad y copiar un archivo 1G del SSD a la matriz RAID me llevó casi una hora:
root@office:/tmp# rsync -vhr --progress test.img /mnt/raid/
sending incremental file list
test.img
1.07G 100% 301.99kB/s 0:57:52 (xfer#1, to-check=0/1)
sent 1.07G bytes received 31 bytes 309.25K bytes/sec
total size is 1.07G speedup is 1.0
La matriz RAID parece estar bien:
root@office:/tmp# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md0 : active raid5 sdb[0] sdd[3] sdc[1]
5860270080 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/3] [UUU]
unused devices: <none>
y syslog no menciona nada.
¿Dónde más debería buscar para solucionar este problema?
PD. Hace aproximadamente un mes tuvimos que sustituir un interruptor después de una tormenta. Este problema también comenzó en esa época. No puedo decir si se trata de una placa base defectuosa o de un controlador, o de algo más que está roto. Preferiría encontrar una prueba irrefutable antes de aconsejar al cliente que comience a reemplazar el hardware...
Respuesta1
Resulta que había un trabajo cron ejecutando sincronización; cada 60 segundos. Estaba produciendo tantos procesos zombies que estaba ralentizando la matriz RAID. Moraleja de la historia: revisa tus trabajos cron.