Sube muchos archivos a S3

Sube muchos archivos a S3

Tengo alrededor de 1 millón de imágenes (organizadas en directorios) que necesito ingresar al S3. Comencé a usar s3sync.rb, pero como está diseñado para sincronizar, crea toneladas de archivos adicionales para realizar un seguimiento de las cosas. No necesito ni quiero esto, solo necesito subirlo una vez.

Luego probé s3cmd (la versión de Python) que tiene una opción --recursiva para colocación simple. El problema es que intenta procesar todos los archivos cargados por adelantado (al menos eso es lo que parece en el modo de depuración), lo que no funciona para la cantidad de archivos que tengo.

Estoy pensando en probar algo como Bucket Explorer o s3fox, pero tengo miedo de perder mucho tiempo y llegar solo a la mitad del camino.

¿Alguna recomendación por favor?

Editar: conozco algunas de las opciones para montar s3, pero no he tenido buenas experiencias con s3fs. ¿Jungledisk funcionaría bien con una gran cantidad de archivos? Además, esos programas tienden a crear archivos adicionales que preferiría no tener.

Respuesta1

No he probado esa opción de almacenamiento en particular, perociberpatoadmite s3, tiene una opción de sincronización y, en general, ha sido bastante sólido para mí.

Respuesta2

Respuesta3

Podrías intentar ejecutar s3sync.rbcon las --no-md5opciones. Con esa opción sólo se compara la fecha de modificación.

He utilizado Jungledisk para realizar copias de seguridad de una cantidad bastante grande de archivos (~20k) y funcionó muy bien. Aunque crea una base de datos separada para conservar los archivos que se cargaron (y realizar la deduplicación). Por lo que he visto, el tamaño de la base de datos de respaldo es trivial en comparación con el tamaño de todos los archivos de los que se ha realizado una copia de seguridad.

No importa cómo cargue cosas en S3, habrá "archivos adicionales" porque S3 no almacena directorios, solo admite claves y nodos, por lo que la información del directorio debe guardarse por separado.

información relacionada