¿Qué quiere decir tw_cli de 3Ware con un disco "DEGRADADO" frente a "ECC-ERROR"?

¿Qué quiere decir tw_cli de 3Ware con un disco "DEGRADADO" frente a "ECC-ERROR"?

Tengo una triste matriz RAID en una tarjeta 3ware 9650SE-16ML. Lo que no puedo decir es si acabo de sufrir un fallo de doble disco (¡lástima!) o si estoy leyendo esto mal. La salida relevante de /c0 show alles:

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     DEGRADED         u0     931.51 GB   1953525168    5QJ07MAH            
p1     ECC-ERROR        u0     931.51 GB   1953525168    5QJ0DCW9            
p2     OK               u0     931.51 GB   1953525168    5QJ0DW9C            
p3     OK               u0     931.51 GB   1953525168    5QJ0CKXJ            

Y el fallo es (de show alarms):

Ctl  Date                        Severity  Alarm Message
------------------------------------------------------------------------------
c0   [Sun Nov 20 07:47:23 2011]  INFO      Rebuild started: unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Drive ECC error reported: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Source drive error occurred: port=1, unit=0
c0   [Sun Nov 20 08:20:12 2011]  ERROR     Rebuild failed: unit=0
c0   [Sun Nov 20 08:20:12 2011]  INFO      Rebuild paused: unit=0

Ipensarque lo que sucedió es que p0 falló y luego p1 tuvo un error ECC (es decir, mis datos desaparecieron). Pero… ¿tal vez no? Se mantiene reconstruido al 97%, pero no puede superar este error.

Hasta donde puedo decir, un administrador anterior desactivó la verificación periódica, que es lo que nos llevó a este estado. ¡Esto no es algo de lo que la mayoría de la gente deba preocuparse con sus RAID 3Ware!

Actualizar

Después de presionarlo durante un par de días, hice el bit IgnoreECC y lo reconstruí, pero mis datos están arruinados. Gorrón.

Respuesta1

El error ECC significa que hay al menos un sector ilegible en la unidad. Sin embargo, si tiene suerte, es posible que ese sector no sea utilizado por el sistema de archivos ubicado en ese volumen, por lo que aún podrá copiar sus datos de la matriz en este estado.

También existen algunas opciones para ignorar los errores de ECC durante la reconstrucción:

/cx/ux start rebuild disk=p [ignoreECC]
/cx/ux set ignoreECC=on|off

Sin embargo, usar estas opciones significa que la franja RAID afectada por un sector defectuoso se dañará (no estoy seguro de qué hará exactamente la tarjeta en este caso; podría reemplazar toda la franja con ceros o incluso con datos aleatorios), por lo tanto, el " La matriz recuperada podría en realidad tener una corrupción indetectable (si la franja afectada estaba en medio de algún archivo de datos). Copiar sus datos de la matriz a algún otro lugar antes de intentar reconstruirlos podría ser más seguro (al menos debería recibir errores al intentar leer el área defectuosa).

Debe configurar una verificación programada de la matriz para detectar sectores ilegibles antes, de modo que pueda reemplazar una unidad que acaba de empezar a estropearse.

Respuesta2

Nunca he experimentado que una unidad física (p0) entre en estado DEGRADADO; sin embargo, es posible que pueda recuperar la unidad ECC-ERROR o incluso la unidad DEGRADADA eliminándolas a través de

/c0 p1 remove

y luego emitir una nueva exploración

/c0 rescan

devolverlos a la unidad de ataque a través de

maint rebuild c0 u0 p1

Las unidades SATA que me fallaron con ECC-ERROR pude resucitar aunque fuera solo por unas horas antes de volver a fallar.

Respuesta3

Es muy probable que tus datos hayan desaparecido. Error ECC significa un error irrecuperable al leer desde este disco.

Si no tiene una copia de seguridad, puede intentar volcar el estado actual de la matriz. Esto podría ser posible porque el controlador no sabe si perdió datos o simplemente un área vacía (carece de información sobre el sistema de archivos).

información relacionada