передача файлов без дубликатов

передача файлов без дубликатов

Допустим, я размещаю серверы, на которые пользователи помещают файлы, и в конце дня все эти файлы извлекаются на сервер хранения.

Проблема в том, что многие из этих файлов будут дублироваться, а я хочу избежать необходимости копировать одни и те же файлы по 10 раз.

Я думал о том, чтобы получить хэш для каждого передаваемого файла, чтобы убедиться, что каждый из них уникален, но, возможно, есть решения получше.

решение1

Один из вариантов — разделить это на две задачи.

Сначала найдите дубликаты файлов на исходной машине и создайте символические ссылки, ярлыки или что-то подобное, чтобы дубликаты были представлены, но не занимали дисковое пространство. Один из вариантов, который я нашел очень хорошо работающим для поиска дубликатов, этохорошо настроенный скрипт Pythonна SO. Возможно, его придется изменить для вашего варианта использования.

Вторым шагом, конечно же, является копирование файлов на другую машину таким образом, чтобы сохранить символическую ссылку или ссылки быстрого доступа.

Связанный контент