En una matriz de discos RAID 5, ¿la recuperación de una unidad aumenta la posibilidad de que falle otra unidad?

En una matriz de discos RAID 5, ¿la recuperación de una unidad aumenta la posibilidad de que falle otra unidad?

Si tiene una matriz RAID 5 básica de 3 o más discos duros y uno falla, ¿aumenta esto la posibilidad de que uno de los otros discos falle y haga imposible la recuperación completa? Si se lee cada una de las unidades durante el proceso de recuperación, ¿es más probable que fallen, suponiendo que solo estén activas una pequeña parte del día?

Si esto afecta la estabilidad durante una recuperación, es posible que esté considerando RAID 6 en su lugar. Además, ¿existe algún beneficio o desventaja de utilizar RAID 5 en lugar de RAID 4? Sólo parece más organizado usar RAID 4 y más extendido usar RAID 5.

Respuesta1

En primer lugar, si está configurado en un raid de paridad, recomendaría un RAID 5 con un esquema de respaldo automático en lugar de un RAID 6. El respaldo podría realizarse en varias unidades (recomendado), un RAID 0 (no recomendado) u otro RAID 5. Esto conlleva un buen equilibrio entre costo y seguridad para sus datos porque también puede manejar fallas del controlador y errores humanos.

Lo que estará seguro haciendo depende del tamaño de su matriz.

Muchos en la industria de TI se están alejando de RAID 5 por dos razones. En primer lugar, el tamaño de corte de muchos de los conjuntos requiere tiempos de reconstrucción extremadamente largos, lo que abre la posibilidad de esperar una segunda falla. En segundo lugar está el problema de un URE, que es un error de lectura irrecuperable que no se conoce hasta que no se puede leer un bloque y luego toda la matriz de esa unidad se vuelve ilegible. Nuevamente, los URE rara vez ocurren en términos de número de errores por bits leídos, pero cuando se tienen matrices de tamaño TB, rara vez es demasiado frecuente. No se puede reconstruir una matriz desde una unidad con un URE. Entonces, si tiene una falla y una URE, efectivamente tiene 2 unidades fallidas. RAID 6 ayuda con esto porque puede perder dos unidades y aun así reconstruir la matriz.

Pero, si tiene una matriz de 100 GB en un RAID 5, estos problemas disminuyen enormemente y un RAID 5 se vuelve más viable; sin embargo, si tiene una matriz de 100 TB (solo como ejemplo) en un raid 6, es posible que necesite más redundancia u otra opción.

RAID 5 con matrices de TB es definitivamente una apuesta y no me fiaría de él. Y no tiene sentido ejecutar un RAID 6 con 4 unidades en lugar de un RAID 10 a menos que vaya a ampliar su matriz pronto y necesite hacerlo 1 unidad a la vez por el costo. Y no olvidemos que puede ejecutar múltiples matrices RAID 1, simplemente segrega sus datos en particiones/discos separados con los que tiene que trabajar y le quita la comodidad de un disco grande.

Pero todo tiene su salvedad. Cuanto mayor sea el RAID 5, mayor será (exponencialmente mayor) la probabilidad de que se produzca un error de reconstrucción debido a una segunda unidad fallida o URE. RAID 6 mayor coste y complejidad. RAID 10 cuesta aún más (pero por simplicidad). Y el costo de conveniencia de múltiples RAID 1.

Al final, necesitas identificar tus necesidades, separar lo que no puedes perder y lo que estás bien perder. Combine eso con un presupuesto y su nivel de experiencia mientras elige qué matriz elegir.

Nosotros, colocamos los datos de nuestra oficina y hogar en un RAID 1 (2 unidades RAID 10 con MD RAID en realidad) por seguridad con copias de seguridad diarias. Es simple, rápido y confiable. Cualquier otro dato, como archivos de vídeo u otros archivos grandes no críticos, los colocamos en un RAID 5 o en unidades individuales con copias de seguridad ocasionales en función de la importancia de los datos, porque no queremos permitirnos el mismo nivel de seguridad con nuestras películas que con nuestras fotografías familiares y/o archivos de nuestras empresas.

Respuesta2

El acto de reconstruir la matriz RAID puede llevar mucho tiempo (días) y ser muy duro para los discos. Durante este tiempo de reconstrucción, los discos supervivientes son más susceptibles a fallas debido a su actividad.

Antes de que comience la reconstrucción, los discos supervivientes no tienen grandes posibilidades de fallar.

Por este motivo, puede ser desaconsejable tener un "repuesto dinámico" en el sistema, ya que activará automáticamente una reconstrucción y provocará una falla. Además, encontrar un error de lectura irrecuperable durante la reconstrucción podría causar una falla en la matriz aunque no hayan fallado más discos. Es mejor copiar los datos de la matriz primero y luego reconstruirlos, si no hay copias de seguridad recientes.

Respuesta3

Respuesta corta SÍ: RAID 1+0 se diseñó ESPECÍFICAMENTE debido a la probabilidad de falla durante la reconstrucción de RAID5.

Respuesta larga: Sí, existe una gran posibilidad de que falle la unidad. En el caso "más obvio/simple", se puede argumentar que se genera más calor y, por lo tanto, hay una probabilidad ligeramente mayor de falla. Dicho esto, este no es el riesgo real.

El riesgo real es que si las unidades se compraron aproximadamente al mismo tiempo, existe una probabilidad muy elevada de que fallen aproximadamente al mismo tiempo. Por lo tanto, aumenta la posibilidad de que falle la segunda unidad durante la reconstrucción. Lamentablemente, este escenario no es académico: cuanto mayor sea el impulso, más larga será la reconstrucción y mayores serán las posibilidades de fracaso. Generalmente se acepta que RAID5 ofrece pocos beneficios con grupos de discos grandes. La solución aceptada es raid 10 (léase RAID one 1+0). Básicamente, esto genera 2 conjuntos de datos idénticos en 2 conjuntos de matrices; por lo tanto, utiliza mucho más (casi el doble) de espacio que RAID5, pero proporciona una protección mucho mayor contra fallas de múltiples unidades, lo cual, desafortunadamente, es común en unidades de gran tamaño. .

información relacionada