md5sum для больших файлов

Question 1

Проверка содержимого путем выборки только первого мегабайта файла, скорее всего, не обнаружит, были ли некоторые из больших файлов повреждены, испорчены или изменены тем или иным образом. Причина этого в том, что вы даете алгоритму хеширования только один мегабайт данных, когда могут быть сотни других мегабайт, которые могут быть неверными. Даже один бит в неправильном положении даст другую сигнатуру.

Если вы хотите проверить целостность данных, вам лучше подойдет алгоритм CRC32. Он быстрее, чем MD5. Хотя и возможно подделать/изменить файл, чтобы он выглядел как имеющий правильную подпись CRC32, маловероятно, что случайные повреждения когда-либо сделают это.

Обновлять:

Вот хороший однострочный код для создания контрольной суммы md5 размером 1 мегабайт для каждого файла:

find ./ -type f -print0 | xargs -0 -n1 -I{} sh -c "echo '{}' >> output.md5 && head -c 1M '{}' | md5sum >> output.md5"

Замените md5sum на cksum, если вам так хочется. Обратите внимание, что я решил включить имя файла в вывод. Это потому, что строка имени файла не передается, когда вы не передаете md5sum весь файл.

Answer

Проверка содержимого путем выборки только первого мегабайта файла, скорее всего, не обнаружит, были ли некоторые из больших файлов повреждены, испорчены или изменены тем или иным образом. Причина этого в том, что вы даете алгоритму хеширования только один мегабайт данных, когда могут быть сотни других мегабайт, которые могут быть неверными. Даже один бит в неправильном положении даст другую сигнатуру.

Если вы хотите проверить целостность данных, вам лучше подойдет алгоритм CRC32. Он быстрее, чем MD5. Хотя и возможно подделать/изменить файл, чтобы он выглядел как имеющий правильную подпись CRC32, маловероятно, что случайные повреждения когда-либо сделают это.

Обновлять:

Вот хороший однострочный код для создания контрольной суммы md5 размером 1 мегабайт для каждого файла:

find ./ -type f -print0 | xargs -0 -n1 -I{} sh -c "echo '{}' >> output.md5 && head -c 1M '{}' | md5sum >> output.md5"

Замените md5sum на cksum, если вам так хочется. Обратите внимание, что я решил включить имя файла в вывод. Это потому, что строка имени файла не передается, когда вы не передаете md5sum весь файл.

Question 2

Немного измененное решение/пример, использующее аргумент find -size для ограничения только файлов размером более 10 МБ и вычисляющее md5sum из первой и последней части файла размером 1 МБ.

find . -type f -a -size +10M -print0 | xargs -0 -n1 -I{} sh -c 'echo "$( (head -c 1M '{}'; tail -c 1M '{}' ) | md5sum) {} "'

Answer

Немного измененное решение/пример, использующее аргумент find -size для ограничения только файлов размером более 10 МБ и вычисляющее md5sum из первой и последней части файла размером 1 МБ.

find . -type f -a -size +10M -print0 | xargs -0 -n1 -I{} sh -c 'echo "$( (head -c 1M '{}'; tail -c 1M '{}' ) | md5sum) {} "'

md5sum для больших файлов

решение1

решение2

Связанный контент