três discos com erros de ECC no ataque 3ware em duas semanas

três discos com erros de ECC no ataque 3ware em duas semanas

Eu tenho um servidor que mantenho para um cliente. É um computador baseado em Intel Nehalem, portanto não é novo, mas está funcionando bem. Possui uma placa 3ware 9650SE-24M8 com 20 drives conectados e 4 slots vazios, configurados em 5 arrays raid5. Três desses arrays são compostos de unidades de 2 TB, os outros dois de 3 TB. Nas últimas duas semanas, perdemos 3 unidades de 3 TB do mesmo array, duas no mesmo dia. Fazemos backups noturnos, para que não haja perda de dados, mas o tempo de inatividade é caro, assim como a substituição dos discos. por perdido quero dizer que o cartão está reportando um status de erro ECC. as unidades de 2 TB estão se aproximando de 25.000 horas de operação, as de 3 TB estão se aproximando de 10.000 horas de operação.

As temperaturas ambientes são de aproximadamente 25ºC, enquanto as unidades estão (de acordo com a smart) ociosas entre 28 e 30ºC. O sistema operacional é o fedora Linux 13 amd64 (estou tentando atualizar há seis meses, mas não consigo manter a operação estável o suficiente para me sentir pronto para isso).

Não sei o que fazer neste momento, até o momento houve duas unidades que morreram, ambas de 1 TB e bastante antigas, com vários meses de intervalo. ajuda ou sugestões?

informação relacionada