Reconstrucción de matriz en 3ware 9690SA-8I

Reconstrucción de matriz en 3ware 9690SA-8I

Versión TL;DR

  1. La matriz RAID10 funciona bien
  2. Reiniciar el servidor como parte del mantenimiento.
  3. Matriz inoperable (sin acceso alguno)
  4. Los registros del controlador dicen que una sola unidad está defectuosa
  5. Quitar unidad y prueba: no se encontraron sectores defectuosos
  6. Sea precavido, reemplace la unidad por una que sepa que está en buen estado
  7. El controlador no reconstruye la matriz en una nueva unidad
  8. Incluso con solo una falla en la unidad, el controlador ha hecho que toda la matriz RAID10 sea inaccesible

Y ahora la versión larga y detallada:

Tengo una matriz RAID10 (8x1TB) en una tarjeta 3ware 9690 que se ejecuta en un servidor Ubuntu 1110.

Hubo una actualización del kernel, así que programé un reinicio después del cual la matriz quedó inaccesible. Verifiqué el estado de una unidad en la matriz, pero el controlador ha puesto toda la matriz en un estado "inoperable" en lugar de simplemente degradarla (¿cuál es el objetivo del RAID ahora? ;-).

Después de sacar la unidad "muerta", realicé una prueba rápida para encontrarla completamente funcional sin encontrar un sector defectuoso.

Intento volver a colocar la unidad, pero la matriz todavía marca el disco como degradado (¿recuerdas el número de serie o algo así?) y toda la matriz como inoperable...

Así que lo cambio por una unidad que funciona (no tiene la misma capacidad pero es mayor; aún debería funcionar) e inicio una reconstrucción con la nueva unidad como reemplazo. Esto falla instantáneamente con el error "(0x0B:0x0033): Unidad ocupada: No se pudo iniciar la reconstrucción en la Unidad 0". La unidad no debería estar ocupada ya que no está montada (la tarjeta en sí aparece con lshw pero la matriz que proporciona no).

Estoy prácticamente en un punto muerto ahora, no entiendo cómo puedo tener una falla en una sola unidad en un RAID10 que hace que toda la matriz sea inaccesible, degradada, podría entenderlo pero ¿inaccesible? No creo que el controlador esté defectuoso ya que antes del reinicio estaba completamente funcional.


> info c0

Unit  UnitType  Status         %RCmpl  %V/I/M  Stripe  Size(GB)  Cache  AVrfy
------------------------------------------------------------------------------
u0    RAID-10   INOPERABLE     -       -       256K    3725.25   Ri     ON

VPort Status         Unit Size      Type  Phy Encl-Slot    Model
------------------------------------------------------------------------------
p0    OK             u0   931.51 GB SATA  0   -            SAMSUNG HD103SJ
p1    OK             u0   931.51 GB SATA  1   -            SAMSUNG HD103SJ
p2    OK             u0   931.51 GB SATA  2   -            SAMSUNG HD103SJ
p3    OK             u0   931.51 GB SATA  3   -            SAMSUNG HD103SJ
p4    OK             u0   931.51 GB SATA  4   -            SAMSUNG HD103SJ
p5    OK             -    1.36 TB   SATA  5   -            ST31500341AS
p6    OK             u0   931.51 GB SATA  6   -            SAMSUNG HD103SJ
p7    OK             u0   931.51 GB SATA  7   -            SAMSUNG HD103SJ

> /c0/u0 start rebuild disk=5

Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy

Respuesta1

Se comunicó con el soporte de LSI y uno de sus técnicos de segundo nivel estaba loco por escribir un script y un truco de firmware para llevar la matriz a un estado degradado regular.
A partir de ahí, todo fue como de costumbre unir un nuevo disco a la matriz y reconstruirlo.

información relacionada