md5sum en archivos grandes

Question 1

Verificar el contenido muestreando solo el primer megabyte de un archivo probablemente no detectará si algunos de los archivos más grandes han sido corruptos, dañados o alterados de una forma u otra. La razón es que solo le estás dando al algoritmo hash un megabyte de datos cuando puede haber cientos de otros megabytes que podrían estar desactivados. Incluso un bit en la posición incorrecta daría una firma diferente.

Si lo que desea verificar es la integridad de los datos, será mejor que utilice el algoritmo CRC32. Es más rápido que MD5. Aunque es posible falsificar/modificar un archivo para que parezca que tiene la firma CRC32 correcta, no es probable que fragmentos aleatorios de corrupción lo hagan alguna vez.

Actualizar:

Aquí hay una buena frase para realizar la suma de comprobación md5 basada en 1 megabyte en cada archivo:

find ./ -type f -print0 | xargs -0 -n1 -I{} sh -c "echo '{}' >> output.md5 && head -c 1M '{}' | md5sum >> output.md5"

Reemplace md5sum con cksum si lo desea. Observe que elegí incluir el nombre del archivo en el resultado. Esto se debe a que la cadena del nombre del archivo no se transmite cuando no le proporcionas a md5sum el archivo completo.

Answer

Verificar el contenido muestreando solo el primer megabyte de un archivo probablemente no detectará si algunos de los archivos más grandes han sido corruptos, dañados o alterados de una forma u otra. La razón es que solo le estás dando al algoritmo hash un megabyte de datos cuando puede haber cientos de otros megabytes que podrían estar desactivados. Incluso un bit en la posición incorrecta daría una firma diferente.

Si lo que desea verificar es la integridad de los datos, será mejor que utilice el algoritmo CRC32. Es más rápido que MD5. Aunque es posible falsificar/modificar un archivo para que parezca que tiene la firma CRC32 correcta, no es probable que fragmentos aleatorios de corrupción lo hagan alguna vez.

Actualizar:

Aquí hay una buena frase para realizar la suma de comprobación md5 basada en 1 megabyte en cada archivo:

find ./ -type f -print0 | xargs -0 -n1 -I{} sh -c "echo '{}' >> output.md5 && head -c 1M '{}' | md5sum >> output.md5"

Reemplace md5sum con cksum si lo desea. Observe que elegí incluir el nombre del archivo en el resultado. Esto se debe a que la cadena del nombre del archivo no se transmite cuando no le proporcionas a md5sum el archivo completo.

Question 2

Una solución/ejemplo ligeramente modificado, que utiliza el argumento find -size para limitar solo archivos mayores a 10 M y calcula md5sum desde la primera parte de 1 M y la última de 1 M del archivo.

find . -type f -a -size +10M -print0 | xargs -0 -n1 -I{} sh -c 'echo "$( (head -c 1M '{}'; tail -c 1M '{}' ) | md5sum) {} "'

Answer

Una solución/ejemplo ligeramente modificado, que utiliza el argumento find -size para limitar solo archivos mayores a 10 M y calcula md5sum desde la primera parte de 1 M y la última de 1 M del archivo.

find . -type f -a -size +10M -print0 | xargs -0 -n1 -I{} sh -c 'echo "$( (head -c 1M '{}'; tail -c 1M '{}' ) | md5sum) {} "'

md5sum en archivos grandes

Respuesta1

Respuesta2

información relacionada