Como evitar a perda de dados devido a setores defeituosos do disco?

Como evitar a perda de dados devido a setores defeituosos do disco?

Como o título diz, estou preocupado sobre como podemosevitar perda de dadosdevido a setores defeituosos do disco rígido (HDD mecânico ou SSD).

\Mais Informações\

A pergunta está bem definida. A pergunta termina aqui. Deixe-me tentar fornecer mais informações. Falha no dispositivo de armazenamento (falha de hardware, excluindo vírus primeiro) dividida principalmente em dois tipos.

  1. Falha no disco inteiro. Qualquer coisa mecânica e/ou eletronicamente errada dentro do disco torna o disco inacessível.

  2. Setor ruim. Apenas uma certa parte é culpa. Todo o disco parece estar funcionando bem. Se esse setor defeituoso não for acessado/verificado, nunca saberemos que existe um setor defeituoso.

\O RAID não pode evitar a perda de dados devido a setores defeituosos\

RAID1, RAID5 ou RAID6 podem evitar a perda de dados devido ao caso 1. No entanto, até onde eu sei, o RAID padrão não verifica e verifica todos os dados regularmente, o que significa que o RAID não pode evitar a perda de dados devido ao caso 2. Por exemplo, em o caso do espelho RAID1. Se um setor defeituoso aparecer no primeiro disco, um arquivo está corrompido no primeiro disco. Nesse momento, ainda temos o arquivo espelhado no segundo disco.Mas não sabemos se existe um setor ruim.Assim, a matriz RAID1 não indicará uma falha no disco e não desencadeará uma recuperação. Então o tempo passa e mais e mais setores defeituosos aparecem. (Cada hardware desgastado é apenas uma questão de tempo.) Definitivamente, há uma chance de que o bit/parte espelhada exata no segundo disco também sofra de um setor defeituoso. Neste momento, não há mais cópias redundantes.Os dados afetados serão perdidos para sempre.Da mesma forma, não notaremos isso imediatamente. Só descobriremos essa perda até acessarmos esse dado.

\É ZFS(um sistema de arquivos com soma de verificação)uma solução?\

Devido à preocupação de evitar a perda de dados devido a setores defeituosos, comecei a examinar a soma de verificação do arquivo. Parece que poucos sistemas de arquivos populares incluem a soma de verificação de cada arquivo. Tenho algum conhecimento com Gentoo Linux. Portanto, estou planejando usar o ZFS no Gentoo Linux.

As idéias do ZFS de que "A administração do armazenamento deve ser simples" e "A redundância deve ser tratada pelo sistema de arquivos" são boas. Parece-me que se ocorrer um setor defeituoso em um disco ZFS, ele será recuperado silenciosamente (não é? Ainda não posso confirmar isso). Se surgirem cada vez mais setores defeituosos em um disco ZFS, isso significa que o tamanho desse disco ZFS diminuirá? Caso contrário, como posso perceber quando ocorre um setor defeituoso? Como posso saber quando os setores defeituosos do disco rígido são muitos e preciso substituí-lo por outro disco rígido saudável? Acho que preciso de alguns monitores ZFS e utilitários ZFS, sobre os quais não consigo encontrar muita informação na Internet.

Responder1

Dado que você está assumindo que o armazenamento de dados sempre falhará, você apenas terá quemanter mais de uma cópiade dados e, ocasionalmente, verifique e certifique-se de que consegue ler os dados com êxito.

Usar algum tipo de RAID parece uma boa maneira de ter pelo menos uma cópia de backup, mas cópias adicionais são uma ótima ideia, pelo menos pela razão óbvia de não manter todas as cópias no mesmo prédio, sala e máquina. Os backups online são uma boa maneira de deixar outra pessoa se preocupar com a falha de suas unidades.

Para garantir que os dados ainda estejam legíveis, basta manter suas próprias somas de verificação e verificá-las regularmente. Um CRC básico funcionaria, como cksumnos principais utilitários do GNU, ou mesmo md5sum ou shaXsum (embora sejam um exagero apenas para setores defeituosos, IMO).

[E guarde algumas cópias dos arquivos de soma de verificação, por motivos óbvios.]

Mesmo que o ZFS tenha suas próprias somas de verificação, você ainda deve manter sua própria cópia, para verificar as cópias armazenadas em outros sistemas de arquivos ou online. E presumo que você ou o ZFS terão que ler todos os arquivos para verificá-los de qualquer maneira (acredito que se chameLimpeza de dados ZFS, chamado explicitamente com zpool scrub).


Também é interessante considerar que muitas unidades (especialmente unidades flash) fazem seu próprio gerenciamento de blocos ruins (e nivelamento de desgaste), trocando blocos ruins e marginais por novas peças sobressalentes, tudo (principalmente) silenciosamente, sem que você ou o sistema operacional percebam. Eu li sobre cartões de memória flash uma vez, como de 16 GB de memória só havia memória suficiente para fazer um cartão de 512 MB ou 1G.

Responder2

Em relação ao RAID 5/6

RAID 5/6 possui dados de paridade.

Se for possível reconstruir um disco inteiro, certamente haverá dados de paridade suficientes para recuperar um único setor.

Na pior das hipóteses, você detecta um setor defeituoso, substitui toda a unidade e agora tudo foi reconstruído.

Portanto, se um RAID 5/6 detectar um setor defeituoso, eledeveuse automaticamente os dados de paridade para repará-lo.

Meu controlador Adaptec RAID ainda possui uma opção especial "verificar/corrigir" na GUI.

Observe tambémsomas de verificação,sha1,sha2, CRC e etc oferecem apenas a capacidade de detectar quando ocorreu um erro. Ele oferece qualquer capacidade de corrigi-los.

informação relacionada