Sectores actualmente ilegibles en la unidad RAID 5 de Linux

Sectores actualmente ilegibles en la unidad RAID 5 de Linux

Tengo mensajes inteligentes cada 30 minutos en /var/log/messages:

smartd[3588]: Dispositivo: /dev/sdc, 176 sectores actualmente ilegibles (pendientes)

Esta unidad (sdc) es parte de RAID 5 configurado con mdadm. El monitor Mdadm dice que RAID está bien, pero quiero saber si necesito cambiar la unidad o no. Además si es necesario marcar como malos estos sectores o el SO ya lo hizo.

Si necesito cambiar la unidad, ¿cómo puedo elegir la de reemplazo? No puedo encontrar la cantidad de bloques en las especificaciones del disco duro, por lo que si elijo uno con menos bloques que el original, estaré en problemas.

Respuesta1

Sí, cambia la unidad.

Los sectores ilegibles (pendientes) son sectores cuyo contenido no se pudo leer. En una situación normal sin RAID, eso resultaría en un error de lectura o en un largo retraso mientras la unidad intenta leer el sector una y otra vez hasta que lo logra (o hasta que finalmente se dé por vencido).

Con RAID suceden dos cosas:

  1. Probablemente su disco esté configurado con un valor TLER corto. Por lo tanto, abandonará sus intentos de leer ese sector en un plazo razonable. (Evitando así largos cuelgues).
  2. Su matriz RAID nota la falla y lee los datos de otro disco. Ésta es la ventaja de RAID 5; tienes una copia de repuesto.

Lo que quieres hacer es:

  1. Revisa tus copias de seguridad. No deberías necesitarlossi todo va bien.
  2. Busque un disco de repuesto de igual o mayor tamaño. Puedes consultar la talla con smartctl -a /dev/sdc. No asuma que todas las unidades de tamaño X tienen la misma capacidad. A los fabricantes les gustan los números redondos; Es posible que una unidad de 500 GB sea más pequeña que otra de 500 GB.
  3. Coloque el disco con problemas fuera de línea. ( mdadm --manage --remove /dev/mdX /dev/sdc)
  4. Reemplace el disco con hardware nuevo y deje que la matriz se reconstruya sola. ( mdadm --add /dev/mdX /dev/sdc)

Si utilizó discos grandes, esto llevará mucho tiempo. A veces es más rápido simplemente reconstruir la matriz RAID desde cero y restaurarla a partir de copias de seguridad. (¡PRUEBA esas copias de seguridad primero!)

Mientras se reconstruye el RAID, no hay redundancia. Por lo tanto, si otro disco falla (por ejemplo, debido al estrés de la reconstrucción), entonces tiene un problema. Esto sucede a veces con discos grandes (tiempos de reconstrucción prolongados) y lotes de unidades de la misma fecha.

Respuesta2

La respuesta aceptada es generalmente buena, pero desde mdadm 3.3 puede reemplazar una unidad en la matriz sin quitar primero la defectuosa. Si la unidad defectuosa es casi legible, esto lo protegerá de la mayoría de fallas dobles.

Suponiendo que sdd es una unidad nueva, en lugar de los puntos 3 y 4, haga esto:

  1. Agregue una nueva unidad a la matriz y reemplace la unidad defectuosa por una nueva: mdadm /dev/mdX -add /dev/sdd --replace /dev/sdc --with /dev/sdd

Activará una reconstrucción con todos los datos posibles disponibles y eliminará la unidad defectuosa/antigua cuando esté lista.

Como nota adicional, al crear una nueva matriz, es una buena práctica crear 1 partición grande en cada dispositivo físico y crear la matriz raid en las particiones, en lugar de en el dispositivo sin formato.

información relacionada