¿Cuál es la letalidad de un error SMART?

¿Cuál es la letalidad de un error SMART?

Disponemos de un servidor de almacenamiento de 40 TB en RAID 5, con doce unidades de 2 TB. Una unidad actúa como repuesto dinámico y se administra con un controlador RAID de hardware.

Por alguna razón olvidada, aparentemente tres unidades fallaron simultáneamente. Uno parece haber fallado por completo, mientras que dos muestran errores SMART. El hotspare no parece haberse convertido en parte de la matriz, pero no estoy seguro de si eso habría sucedido automáticamente de todos modos.

La pregunta es: ¿es posible reiniciar esas dos unidades, reconstruir la matriz y luego guardar esos datos antes de que esas unidades finalmente fallen? Lo que sé sobre el error SMART es que no se trata de un fallo absoluto, sino simplemente de un fallo previsto.

Obviamente estas unidades deben ser reemplazadas en breve, pero ¿están totalmente estropeadas o se pueden salvar?

Respuesta1

La única unidad que ha fallado por completo debe reemplazarse lo antes posible y la matriz podrá reconstruirse por sí sola. Según este estudio, las unidades que presentan fallas SMART tienen más probabilidades de fallar que las que no muestran fallas SMART:https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf. También deben reemplazarse y no volver a usarse nunca más en casos de uso importantes.

Suponiendo que esté utilizando discos duros idénticos, vale la pena adquirir varios repuestos, y el número dependerá de cuánto tiempo espera que el dispositivo de almacenamiento permanezca en servicio.

En mi opinión, RAID5 no es una buena opción para conjuntos de unidades de más de 1 TB. RAID5 tarda mucho en reconstruirse y el rendimiento es lento durante la reconstrucción. RAID5 tampoco es muy útil cuando tiene muchos (12) discos en una matriz, porque solo protege contra una falla. Un segundo fallo arruina todo el conjunto.

Para compilaciones futuras, sugiero usar RAID10 en su lugar, brindará un rendimiento rápido más consistente y al mismo tiempo brindará una mejor tolerancia a fallas.

Respuesta2

Tengo entendido que RAID 5 permite una falla de 1 disco en la matriz. El hotspare se construye en consecuencia cuando se solicita. El controlador/GUI o cualquier interfaz que esté utilizando se utiliza para hacer esto. El tiempo necesario para reconstruir el RAID depende de la cantidad de datos en uso. Una vez que se haya construido el hotspare, su RAID, en teoría, volverá a la normalidad. En este momento, desconecte una de las otras unidades con errores SMART y reconstrúyala mediante el proceso de repuesto dinámico. Complete hasta que se reemplacen todos sus HDD con errores. Reemplazaría cualquier disco con datos críticos que muestren errores SMART. Podrías usar RAID 6 en el futuro, por supuesto, tendrías que hacer una copia de seguridad de todos tus datos moviéndolos, reconstruir la matriz y volver a colocarlos. RAID 6 permite más fallas en el disco, pero la velocidad de escritura se ve ligeramente afectada.

información relacionada