Qual é a letalidade de um erro SMART?

Qual é a letalidade de um erro SMART?

Temos um servidor de armazenamento de 40 TB em RAID 5, com doze drives de 2 TB. Uma unidade atua como hotspare e é gerenciada com um controlador RAID de hardware.

Por alguma razão esquecida, três unidades aparentemente falharam simultaneamente. Um parece ter falhado totalmente, enquanto dois apresentam erros SMART. O hotspare não parece ter sido convertido em parte do array, mas não tenho certeza se isso teria acontecido automaticamente de qualquer maneira.

A questão é: é possível reiniciar essas duas unidades, reconstruir o array e, em seguida, salvar os dados antes que essas unidades falhem? Meu conhecimento do erro SMART é que ele não é um fracasso total, mas apenas um fracasso previsto.

Obviamente, essas unidades precisam ser substituídas em breve, mas elas estão totalmente quebradas ou podem ser salvas?

Responder1

A única unidade com falha total deve ser substituída o mais rápido possível e o array pode ser reconstruído sozinho. As unidades que apresentam falhas SMART têm maior probabilidade de falhar do que aquelas que não apresentam falhas SMART, de acordo com este estudo:https://static.googleusercontent.com/media/research.google.com/en//archive/disk_failures.pdf. Eles também devem ser substituídos e nunca mais usados ​​em casos de uso importantes.

Supondo que você esteja usando discos rígidos idênticos, vale a pena adquirir vários discos sobressalentes, cujo número depende de quanto tempo você espera que o dispositivo de armazenamento permaneça em serviço.

Na minha opinião, o RAID5 não é uma boa opção para conjuntos de unidades maiores que 1 TB. O RAID5 leva muito tempo para ser reconstruído e o desempenho é lento durante a reconstrução. O RAID5 também não é muito útil quando você tem muitos (12) discos em uma matriz, porque protege apenas contra uma falha. Uma segunda falha destrói todo o array.

Para compilações futuras, sugiro usar RAID10, pois proporcionará um desempenho rápido mais consistente e, ao mesmo tempo, melhor tolerância a falhas.

Responder2

Entendo que o RAID 5 permite uma falha de disco no array. O hotspare é construído adequadamente quando solicitado. O controlador/GUI ou qualquer front end que você esteja usando é usado para fazer isso. O tempo necessário para reconstruir o RAID depende da quantidade de dados em uso. Depois que o hotspare for construído, seu RAID, em teoria, voltará ao normal. Neste momento, coloque uma das outras unidades com erros SMART off-line e reconstrua-a usando o processo de hotspare. Conclua até que todo o seu HDD com erros seja substituído. Eu substituiria qualquer disco por dados críticos mostrando erros SMART. Você poderia usar o RAID 6 daqui para frente, é claro que teria que fazer backup de todos os seus dados movendo-os, reconstruindo o array e colocando-os de volta. O RAID 6 permite mais falhas de disco, mas você sofre um pequeno impacto na velocidade de gravação.

informação relacionada