
Versión TL;DR
- La matriz RAID10 funciona bien
- Reiniciar el servidor como parte del mantenimiento.
- Matriz inoperable (sin acceso alguno)
- Los registros del controlador dicen que una sola unidad está defectuosa
- Quitar unidad y prueba: no se encontraron sectores defectuosos
- Sea precavido, reemplace la unidad por una que sepa que está en buen estado
- El controlador no reconstruye la matriz en una nueva unidad
- Incluso con solo una falla en la unidad, el controlador ha hecho que toda la matriz RAID10 sea inaccesible
Y ahora la versión larga y detallada:
Tengo una matriz RAID10 (8x1TB) en una tarjeta 3ware 9690 que se ejecuta en un servidor Ubuntu 1110.
Hubo una actualización del kernel, así que programé un reinicio después del cual la matriz quedó inaccesible. Verifiqué el estado de una unidad en la matriz, pero el controlador ha puesto toda la matriz en un estado "inoperable" en lugar de simplemente degradarla (¿cuál es el objetivo del RAID ahora? ;-).
Después de sacar la unidad "muerta", realicé una prueba rápida para encontrarla completamente funcional sin encontrar un sector defectuoso.
Intento volver a colocar la unidad, pero la matriz todavía marca el disco como degradado (¿recuerdas el número de serie o algo así?) y toda la matriz como inoperable...
Así que lo cambio por una unidad que funciona (no tiene la misma capacidad pero es mayor; aún debería funcionar) e inicio una reconstrucción con la nueva unidad como reemplazo. Esto falla instantáneamente con el error "(0x0B:0x0033): Unidad ocupada: No se pudo iniciar la reconstrucción en la Unidad 0". La unidad no debería estar ocupada ya que no está montada (la tarjeta en sí aparece con lshw pero la matriz que proporciona no).
Estoy prácticamente en un punto muerto ahora, no entiendo cómo puedo tener una falla en una sola unidad en un RAID10 que hace que toda la matriz sea inaccesible, degradada, podría entenderlo pero ¿inaccesible? No creo que el controlador esté defectuoso ya que antes del reinicio estaba completamente funcional.
> info c0
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-10 INOPERABLE - - 256K 3725.25 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u0 931.51 GB SATA 0 - SAMSUNG HD103SJ
p1 OK u0 931.51 GB SATA 1 - SAMSUNG HD103SJ
p2 OK u0 931.51 GB SATA 2 - SAMSUNG HD103SJ
p3 OK u0 931.51 GB SATA 3 - SAMSUNG HD103SJ
p4 OK u0 931.51 GB SATA 4 - SAMSUNG HD103SJ
p5 OK - 1.36 TB SATA 5 - ST31500341AS
p6 OK u0 931.51 GB SATA 6 - SAMSUNG HD103SJ
p7 OK u0 931.51 GB SATA 7 - SAMSUNG HD103SJ
> /c0/u0 start rebuild disk=5
Sending rebuild start request to /c0/u0 on 1 disk(s) [5] ... Failed.
(0x0B:0x0033): Unit busy
Respuesta1
Se comunicó con el soporte de LSI y uno de sus técnicos de segundo nivel estaba loco por escribir un script y un truco de firmware para llevar la matriz a un estado degradado regular.
A partir de ahí, todo fue como de costumbre unir un nuevo disco a la matriz y reconstruirlo.