Como evitar a perda de dados devido a setores defeituosos do disco?

Question 1

Dado que você está assumindo que o armazenamento de dados sempre falhará, você apenas terá quemanter mais de uma cópiade dados e, ocasionalmente, verifique e certifique-se de que consegue ler os dados com êxito.

Usar algum tipo de RAID parece uma boa maneira de ter pelo menos uma cópia de backup, mas cópias adicionais são uma ótima ideia, pelo menos pela razão óbvia de não manter todas as cópias no mesmo prédio, sala e máquina. Os backups online são uma boa maneira de deixar outra pessoa se preocupar com a falha de suas unidades.

Para garantir que os dados ainda estejam legíveis, basta manter suas próprias somas de verificação e verificá-las regularmente. Um CRC básico funcionaria, como cksumnos principais utilitários do GNU, ou mesmo md5sum ou shaXsum (embora sejam um exagero apenas para setores defeituosos, IMO).

_{[E guarde algumas cópias dos arquivos de soma de verificação, por motivos óbvios.]}

Mesmo que o ZFS tenha suas próprias somas de verificação, você ainda deve manter sua própria cópia, para verificar as cópias armazenadas em outros sistemas de arquivos ou online. E presumo que você ou o ZFS terão que ler todos os arquivos para verificá-los de qualquer maneira (acredito que se chameLimpeza de dados ZFS, chamado explicitamente com zpool scrub).

Também é interessante considerar que muitas unidades (especialmente unidades flash) fazem seu próprio gerenciamento de blocos ruins (e nivelamento de desgaste), trocando blocos ruins e marginais por novas peças sobressalentes, tudo (principalmente) silenciosamente, sem que você ou o sistema operacional percebam. Eu li sobre cartões de memória flash uma vez, como de 16 GB de memória só havia memória suficiente para fazer um cartão de 512 MB ou 1G.

Answer

Dado que você está assumindo que o armazenamento de dados sempre falhará, você apenas terá quemanter mais de uma cópiade dados e, ocasionalmente, verifique e certifique-se de que consegue ler os dados com êxito.

Usar algum tipo de RAID parece uma boa maneira de ter pelo menos uma cópia de backup, mas cópias adicionais são uma ótima ideia, pelo menos pela razão óbvia de não manter todas as cópias no mesmo prédio, sala e máquina. Os backups online são uma boa maneira de deixar outra pessoa se preocupar com a falha de suas unidades.

Para garantir que os dados ainda estejam legíveis, basta manter suas próprias somas de verificação e verificá-las regularmente. Um CRC básico funcionaria, como cksumnos principais utilitários do GNU, ou mesmo md5sum ou shaXsum (embora sejam um exagero apenas para setores defeituosos, IMO).

_{[E guarde algumas cópias dos arquivos de soma de verificação, por motivos óbvios.]}

Mesmo que o ZFS tenha suas próprias somas de verificação, você ainda deve manter sua própria cópia, para verificar as cópias armazenadas em outros sistemas de arquivos ou online. E presumo que você ou o ZFS terão que ler todos os arquivos para verificá-los de qualquer maneira (acredito que se chameLimpeza de dados ZFS, chamado explicitamente com zpool scrub).

Também é interessante considerar que muitas unidades (especialmente unidades flash) fazem seu próprio gerenciamento de blocos ruins (e nivelamento de desgaste), trocando blocos ruins e marginais por novas peças sobressalentes, tudo (principalmente) silenciosamente, sem que você ou o sistema operacional percebam. Eu li sobre cartões de memória flash uma vez, como de 16 GB de memória só havia memória suficiente para fazer um cartão de 512 MB ou 1G.

Question 2

Em relação ao RAID 5/6

RAID 5/6 possui dados de paridade.

Se for possível reconstruir um disco inteiro, certamente haverá dados de paridade suficientes para recuperar um único setor.

Na pior das hipóteses, você detecta um setor defeituoso, substitui toda a unidade e agora tudo foi reconstruído.

Portanto, se um RAID 5/6 detectar um setor defeituoso, eledeveuse automaticamente os dados de paridade para repará-lo.

Meu controlador Adaptec RAID ainda possui uma opção especial "verificar/corrigir" na GUI.

Observe tambémsomas de verificação,sha1,sha2, CRC e etc oferecem apenas a capacidade de detectar quando ocorreu um erro. Ele oferece qualquer capacidade de corrigi-los.

Answer