Загрузить очень много файлов на S3

Загрузить очень много файлов на S3

У меня около 1 миллиона изображений (организованных в каталоги), которые мне нужно загрузить в S3. Я начал использовать s3sync.rb, но поскольку он создан для синхронизации, он создает массу дополнительных файлов для отслеживания вещей. Мне это не нужно и не хочется — просто нужно загрузить его один раз.

Затем я попробовал s3cmd (версия python), в которой есть опция --recursive для простого put. Проблема в том, что она пытается обработать все файлы загрузки заранее (по крайней мере, так это выглядит в режиме отладки), что не работает для того количества файлов, которое у меня есть.

Я думаю попробовать что-то вроде Bucket Explorer или s3fox, но боюсь потратить кучу времени и пройти только половину пути.

Можете ли вы дать какие-либо рекомендации?

Редактировать: Я знаю о некоторых вариантах монтирования s3, но не имел хорошего опыта с s3fs. Будет ли jungledisk хорошо работать с большим количеством файлов? Кроме того, эти программы имеют тенденцию создавать дополнительные файлы, которые я бы предпочел не иметь.

решение1

Я не пробовал этот конкретный вариант хранения, нокиберуткаподдерживает s3, имеет опцию синхронизации и в целом оказался для меня достаточно надежным.

решение2

Не могли бы выотправьте им портативное запоминающее устройствос вашими данными на нем?

решение3

Вы можете попробовать запустить s3sync.rbс --no-md5параметрами. С этим параметром сравнивается только дата изменения.

Я использовал Jungledisk для резервного копирования довольно большого количества файлов (~20k), и он показал себя очень хорошо. Хотя он создает отдельную базу данных для хранения загруженных файлов (и выполняет дедупликацию). Из того, что я видел, размер базы данных резервного копирования незначителен по сравнению с размером всех файлов, которые были скопированы.

Независимо от того, как вы загружаете данные в S3, будут появляться «лишние файлы», поскольку S3 не хранит каталоги, а поддерживает только ключи и узлы, поэтому информацию о каталогах приходится сохранять отдельно.

Связанный контент