tres discos con errores ECC en raid 3ware en dos semanas

tres discos con errores ECC en raid 3ware en dos semanas

Tengo un servidor que mantengo para un cliente. Es una computadora basada en Intel Nehalem, por lo que no es nueva, pero funciona. Tiene una tarjeta 3ware 9650SE-24M8 con 20 unidades conectadas y 4 ranuras vacías, configuradas en 5 matrices raid5. Tres de estos conjuntos se componen de unidades de 2 tb, los otros dos de 3 tb. En las últimas dos semanas hemos perdido 3 unidades de 3 TB del mismo conjunto, dos de ellas el mismo día. Hacemos copias de seguridad todas las noches, por lo que no hay pérdida de datos, pero el tiempo de inactividad es costoso, al igual que los discos de reemplazo. Por perdida me refiero a que la tarjeta está informando un estado de error ECC. las unidades de 2 TB se acercan a las 25 000 horas de funcionamiento, las de 3 TB se acercan a las 10 000 horas de funcionamiento.

Las temperaturas ambiente son de aproximadamente 25 ° C, mientras que las unidades están (según Smart) en ralentí a aproximadamente 28-30 ° C. El sistema operativo es fedora Linux 13 amd64 (he estado intentando actualizar durante seis meses, pero no puedo lograr que el funcionamiento sea lo suficientemente estable como para sentirme preparado para ello).

No sé qué hacer en este momento. Hasta ahora ha habido dos unidades que han muerto, ambas de 1 TB y bastante antiguas, y con varios meses de diferencia. ayuda o sugerencias?

información relacionada