Un problema extraño relacionado con ext4/lvm/raid-5 después de la recuperación de la partición

Question

Hay un par de cosas que podrían haber pasado. Primero, no mencionaste desmontar sdc7 antes de crear la imagen del disco, por lo que podría ser que los datos se estuvieran escribiendo en ese momento. Sin embargo, supongo que ese no fue el caso, o no lo preguntarías. No me puedo quejar de tu reacción de "primero, crear una imagen del disco", es una reacción bastante buena. Aunque observo que antes de reiniciar, el kernel todavía tenía la tabla de particiones en la memoria, verifique /proc/partitions.

Lo primero que hay que comprobar es si hay errores de memoria. Podrías tener mala RAM. Sin duda, sus datos pasaron por la RAM varias veces. Supongo que no tienes memoria ECC, lo que probablemente detectaría esto.

Los discos duros también tienen errores. Al buscar una hoja de especificaciones para algunos discos duros de consumo aleatorios, dicen 1 por 100 Tbit. Copiaste 1,2 TB al menos varias veces (leído desde el origen, leído desde el destino), por lo que es algo así como 19 Tbit de lectura. Tener un pequeño error en eso es creíble. (Desafortunadamente, no dan una tasa de error para las escrituras en las hojas de especificaciones).

¿Hubo alguna rima o razón detrás de las corrupciones de un solo byte? cmp -lPuede indicarle los bytes que varían. Por ejemplo, si siempre fuera el mismo desplazamiento en una página (el tamaño de su página probablemente sea 4K) y siempre el mismo bit, eso indicaría casi de manera concluyente que la RAM es defectuosa. Incluso si siempre es el mismo bit o el mismo desplazamiento, eso sería bastante concluyente (¿Y tenía CRC32 para los cuatro archivos, o solo uno?)

Answer 1

Hay un par de cosas que podrían haber pasado. Primero, no mencionaste desmontar sdc7 antes de crear la imagen del disco, por lo que podría ser que los datos se estuvieran escribiendo en ese momento. Sin embargo, supongo que ese no fue el caso, o no lo preguntarías. No me puedo quejar de tu reacción de "primero, crear una imagen del disco", es una reacción bastante buena. Aunque observo que antes de reiniciar, el kernel todavía tenía la tabla de particiones en la memoria, verifique /proc/partitions.

Lo primero que hay que comprobar es si hay errores de memoria. Podrías tener mala RAM. Sin duda, sus datos pasaron por la RAM varias veces. Supongo que no tienes memoria ECC, lo que probablemente detectaría esto.

Los discos duros también tienen errores. Al buscar una hoja de especificaciones para algunos discos duros de consumo aleatorios, dicen 1 por 100 Tbit. Copiaste 1,2 TB al menos varias veces (leído desde el origen, leído desde el destino), por lo que es algo así como 19 Tbit de lectura. Tener un pequeño error en eso es creíble. (Desafortunadamente, no dan una tasa de error para las escrituras en las hojas de especificaciones).

¿Hubo alguna rima o razón detrás de las corrupciones de un solo byte? cmp -lPuede indicarle los bytes que varían. Por ejemplo, si siempre fuera el mismo desplazamiento en una página (el tamaño de su página probablemente sea 4K) y siempre el mismo bit, eso indicaría casi de manera concluyente que la RAM es defectuosa. Incluso si siempre es el mismo bit o el mismo desplazamiento, eso sería bastante concluyente (¿Y tenía CRC32 para los cuatro archivos, o solo uno?)

Un problema extraño relacionado con ext4/lvm/raid-5 después de la recuperación de la partición

Respuesta1

información relacionada