três discos com erros de ECC no ataque 3ware em duas semanas

2024-6-20 • tag-icon

três discos com erros de ECC no ataque 3ware em duas semanas

Eu tenho um servidor que mantenho para um cliente. É um computador baseado em Intel Nehalem, portanto não é novo, mas está funcionando bem. Possui uma placa 3ware 9650SE-24M8 com 20 drives conectados e 4 slots vazios, configurados em 5 arrays raid5. Três desses arrays são compostos de unidades de 2 TB, os outros dois de 3 TB. Nas últimas duas semanas, perdemos 3 unidades de 3 TB do mesmo array, duas no mesmo dia. Fazemos backups noturnos, para que não haja perda de dados, mas o tempo de inatividade é caro, assim como a substituição dos discos. por perdido quero dizer que o cartão está reportando um status de erro ECC. as unidades de 2 TB estão se aproximando de 25.000 horas de operação, as de 3 TB estão se aproximando de 10.000 horas de operação.

As temperaturas ambientes são de aproximadamente 25ºC, enquanto as unidades estão (de acordo com a smart) ociosas entre 28 e 30ºC. O sistema operacional é o fedora Linux 13 amd64 (estou tentando atualizar há seis meses, mas não consigo manter a operação estável o suficiente para me sentir pronto para isso).

Não sei o que fazer neste momento, até o momento houve duas unidades que morreram, ambas de 1 TB e bastante antigas, com vários meses de intervalo. ajuda ou sugestões?

informação relacionada