¿Cómo evitar la pérdida de datos debido a sectores defectuosos del disco?

¿Cómo evitar la pérdida de datos debido a sectores defectuosos del disco?

Como dice el título, me preocupa cómo podemosevitar la pérdida de datosdebido a sectores defectuosos del disco duro (ya sea HDD mecánico o SSD).

\Más información\

La pregunta está bien definida. La pregunta termina aquí. Déjame intentar proporcionar más información. Los fallos del dispositivo de almacenamiento (fallos de hardware, excluyendo primero los virus) se dividen principalmente en dos tipos.

  1. Fallo en todo el disco. Cualquier problema mecánico y/o electrónico dentro del disco hace que no se pueda acceder al mismo.

  2. Mal sector. Sólo una parte es culpable. Todo el disco parece estar funcionando bien. Si no se accede o no se verifica ese determinado sector defectuoso, nunca sabremos que existe un sector defectuoso.

\RAID no puede evitar la pérdida de datos debido a sectores defectuosos\

RAID1, RAID5 o RAID6 pueden evitar la pérdida de datos debido al caso 1. Sin embargo, hasta donde yo sé, el RAID estándar no escanea ni verifica todos los datos regularmente, lo que significa que RAID no puede evitar la pérdida de datos debido al caso 2. Por ejemplo, en el caso del espejo RAID1. Si aparece un sector defectuoso en el primer disco, un archivo está dañado en el primer disco. En ese momento, todavía tenemos el archivo reflejado en el segundo disco.Pero no sabemos que hay un sector malo.Por lo tanto, la matriz RAID1 no indicará una falla del disco y no desencadenará una recuperación. Luego el tiempo sigue y sigue, aparecen cada vez más sectores defectuosos. (Todo el hardware está desgastado, es solo cuestión de tiempo). Definitivamente existe la posibilidad de que el bit reflejado exacto/la parte reflejada en el segundo disco también sufra un sector defectuoso. En este momento, no hay más copias redundantes.Los datos afectados se perderán para siempre.Del mismo modo, no lo notaremos de inmediato. Sólo descubriremos esta pérdida hasta que accedamos a ese dato.

\¿Es ZFS?(un sistema de archivos con suma de comprobación)¿una solución?\

Debido a la preocupación de que deseo evitar la pérdida de datos debido a sectores defectuosos, comencé a investigar la suma de comprobación del archivo. Parece que no muchos sistemas de archivos populares incluyen la suma de comprobación de cada archivo. Tengo algunos conocimientos con Gentoo Linux. Por lo tanto, planeo usar ZFS en Gentoo Linux.

Las ideas de ZFS de que "la administración del almacenamiento debe ser simple" y "la redundancia debe ser manejada por el sistema de archivos" son buenas. Me parece que si ocurre un sector defectuoso en un disco ZFS, lo recuperará silenciosamente (¿no es así? No puedo confirmarlo todavía). Si surgen más y más sectores defectuosos en un disco ZFS, ¿significa que el tamaño de ese disco ZFS se reducirá? Si no, ¿cómo puedo darme cuenta cuando ocurre un sector defectuoso? ¿Cómo puedo saber si hay demasiados sectores defectuosos del disco duro y tengo que reemplazarlos por otro disco duro en buen estado? Supongo que necesito algunos monitores ZFS y utilidades ZFS, de las que no encuentro mucha información en Internet.

Respuesta1

Dado que estás asumiendo que el almacenamiento de datos siempre fallará eventualmente, solo tendrás queconservar más de una copiade datos y, ocasionalmente, verifique y asegúrese de poder leer los datos correctamente.

Usar algún tipo de RAID parece una buena manera de tener al menos una copia de seguridad, pero las copias adicionales son una gran idea, al menos por la razón obvia de no mantener todas las copias en el mismo edificio, habitación y máquina. Las copias de seguridad en línea son una buena manera de dejar que otra persona se preocupe por la falla de sus unidades.

Para asegurarse de que los datos aún sean legibles, simplemente mantenga sus propias sumas de verificación y verifíquelas periódicamente. Un CRC básico funcionaría, como cksumel de las utilidades principales de GNU, o incluso md5sum o shaXsum (aunque, en mi opinión, son excesivos solo para sectores defectuosos).

[Y conserve algunas copias de los archivos de suma de comprobación, por razones obvias.]

Incluso si ZFS tiene sus propias sumas de verificación, aún debe conservar su propia copia para verificar las copias almacenadas en otros sistemas de archivos o en línea. Y supongo que usted o ZFS tendrán que leer todos los archivos para verificarlos de todos modos (creo que se llamaDepuración de datos ZFS, llamado explícitamente con zpool scrub).


También es interesante considerar que muchas unidades (especialmente unidades flash) realizan su propia gestión de bloques defectuosos (y nivelación de desgaste), intercambiando bloques defectuosos y marginales por repuestos nuevos, todo (en su mayoría) silenciosamente sin que usted o el sistema operativo se den cuenta. Una vez leí sobre las tarjetas de memoria flash y cómo con 16 GB de memoria solo había suficiente memoria buena para hacer una tarjeta de 512 MB o 1G.

Respuesta2

Respecto a RAID 5/6

RAID 5/6 tiene datos de paridad.

Si puede reconstruir un disco completo, ciertamente habrá suficientes datos de paridad para recuperar un solo sector.

En el peor de los casos, detecta un sector defectuoso, reemplaza todo el disco y ahora todo está reconstruido.

Entonces, si un RAID 5/6 detecta un sector defectuoso,deberíautilizará automáticamente los datos de paridad para repararlo.

Mi controlador RAID Adaptec incluso tiene una opción especial de "verificar/reparar" en la GUI.

También tenga en cuentasumas de control,sha1,sha2, CRC, etc. solo ofrecen la capacidad de detectar cuando se ha producido un error. Ofrece alguna posibilidad de solucionarlos.

información relacionada