Tengo una triste matriz RAID en una tarjeta 3ware 9650SE-16ML. Lo que no puedo decir es si acabo de sufrir un fallo de doble disco (¡lástima!) o si estoy leyendo esto mal. La salida relevante de /c0 show all
es:
Port Status Unit Size Blocks Serial
---------------------------------------------------------------
p0 DEGRADED u0 931.51 GB 1953525168 5QJ07MAH
p1 ECC-ERROR u0 931.51 GB 1953525168 5QJ0DCW9
p2 OK u0 931.51 GB 1953525168 5QJ0DW9C
p3 OK u0 931.51 GB 1953525168 5QJ0CKXJ
Y el fallo es (de show alarms
):
Ctl Date Severity Alarm Message
------------------------------------------------------------------------------
c0 [Sun Nov 20 07:47:23 2011] INFO Rebuild started: unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Drive ECC error reported: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Source drive error occurred: port=1, unit=0
c0 [Sun Nov 20 08:20:12 2011] ERROR Rebuild failed: unit=0
c0 [Sun Nov 20 08:20:12 2011] INFO Rebuild paused: unit=0
Ipensarque lo que sucedió es que p0 falló y luego p1 tuvo un error ECC (es decir, mis datos desaparecieron). Pero… ¿tal vez no? Se mantiene reconstruido al 97%, pero no puede superar este error.
Hasta donde puedo decir, un administrador anterior desactivó la verificación periódica, que es lo que nos llevó a este estado. ¡Esto no es algo de lo que la mayoría de la gente deba preocuparse con sus RAID 3Ware!
Actualizar
Después de presionarlo durante un par de días, hice el bit IgnoreECC y lo reconstruí, pero mis datos están arruinados. Gorrón.
Respuesta1
El error ECC significa que hay al menos un sector ilegible en la unidad. Sin embargo, si tiene suerte, es posible que ese sector no sea utilizado por el sistema de archivos ubicado en ese volumen, por lo que aún podrá copiar sus datos de la matriz en este estado.
También existen algunas opciones para ignorar los errores de ECC durante la reconstrucción:
/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off
Sin embargo, usar estas opciones significa que la franja RAID afectada por un sector defectuoso se dañará (no estoy seguro de qué hará exactamente la tarjeta en este caso; podría reemplazar toda la franja con ceros o incluso con datos aleatorios), por lo tanto, el " La matriz recuperada podría en realidad tener una corrupción indetectable (si la franja afectada estaba en medio de algún archivo de datos). Copiar sus datos de la matriz a algún otro lugar antes de intentar reconstruirlos podría ser más seguro (al menos debería recibir errores al intentar leer el área defectuosa).
Debe configurar una verificación programada de la matriz para detectar sectores ilegibles antes, de modo que pueda reemplazar una unidad que acaba de empezar a estropearse.
Respuesta2
Nunca he experimentado que una unidad física (p0) entre en estado DEGRADADO; sin embargo, es posible que pueda recuperar la unidad ECC-ERROR o incluso la unidad DEGRADADA eliminándolas a través de
/c0 p1 remove
y luego emitir una nueva exploración
/c0 rescan
devolverlos a la unidad de ataque a través de
maint rebuild c0 u0 p1
Las unidades SATA que me fallaron con ECC-ERROR pude resucitar aunque fuera solo por unas horas antes de volver a fallar.
Respuesta3
Es muy probable que tus datos hayan desaparecido. Error ECC significa un error irrecuperable al leer desde este disco.
Si no tiene una copia de seguridad, puede intentar volcar el estado actual de la matriz. Esto podría ser posible porque el controlador no sabe si perdió datos o simplemente un área vacía (carece de información sobre el sistema de archivos).